CentML · wangshangsam · Jan 29, 2026 · Jan 28, 2026
diff --git a/components/src/dynamo/vllm/handlers.py b/components/src/dynamo/vllm/handlers.py
@@ -164,11 +164,10 @@ def build_sampling_params(
     provided_max_tokens = request.get("stop_conditions", {}).get("max_tokens", None)
     token_ids = request.get("token_ids", [])
     input_length = len(token_ids)
-    if model_max_len is not None and (provided_max_tokens is None):
-        # Ensure at least 1 token generation by default when possible
-        dynamic_default = max(1, model_max_len - input_length)
-        sampling_params.max_tokens = dynamic_default
-
+    dynamic_default = max(1, model_max_len - input_length)
+    model_config_max_tokens = default_sampling_params.get("max_tokens")
+    sampling_params.max_tokens = min(filter(lambda x: x is not None, 
+        [provided_max_tokens, dynamic_default, model_config_max_tokens]))
     return sampling_params
 
 

diff --git a/examples/multimodal/utils/chat_processor.py b/examples/multimodal/utils/chat_processor.py
@@ -91,6 +91,8 @@ async def _parse_raw_request(
             preprocess_result.engine_prompt["prompt_token_ids"]
         )
 
+        default_max_tokens = min(default_max_tokens, self.model_config.max_model_len)
+
         sampling_params = request.to_sampling_params(
             default_max_tokens,
             self.model_config.logits_processor_pattern,