Update fastapi_server_vlm.py

LJ-Hao · web-flow · commit efac0574fb44 · 2026-02-12T14:26:28.000+08:00
diff --git a/src/vlm/fastapi_server_vlm.py b/src/vlm/fastapi_server_vlm.py
@@ -529,7 +529,7 @@ def __init__(self):
         self.default_temperature = 0.7
         self.default_top_p = 1.0
         self.default_top_k = 1
-        self.default_max_tokens = 50
+        self.default_max_tokens = 512
         self.max_concurrent_requests = 1
         self.timeout_seconds = 300
         self.rknn_core_num = 3
@@ -1026,7 +1026,7 @@ def process_inference():
   python rkllm_vision_server.py \\
     --encoder_model ../model/vision.rknn \\
     --llm_model ../model/llm.rkllm \\
-    --port 8080 --max_concurrent 1 --default_max_tokens 50
+    --port 8080 --max_concurrent 1 --default_max_tokens 512
         """
     )
     
@@ -1048,8 +1048,8 @@ def process_inference():
                        help='Default top_p parameter (default: 1.0)')
     parser.add_argument('--default_top_k', type=int, default=1,
                        help='Default top_k parameter (default: 1)')
-    parser.add_argument('--default_max_tokens', type=int, default=50,
-                       help='Default maximum tokens to generate (default: 50)')
+    parser.add_argument('--default_max_tokens', type=int, default=512,
+                       help='Default maximum tokens to generate (default: 512)')
     
     parser.add_argument('--max_concurrent', type=int, default=1,
                        help='Maximum concurrent requests (default: 1)')
@@ -1134,4 +1134,4 @@ def process_inference():
         print("\n👋 Server interrupted by user")
     except Exception as e:
         print(f"❌ Server error: {e}")
-        sys.exit(1)
+        sys.exit(1)