[Model] Use explicit types in get_generation_prompt (#33551)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
2026-02-02 20:38:49 +08:00
parent b398e5c819
commit b10d05b8a8
8 changed files with 82 additions and 66 deletions
--- a/vllm/entrypoints/openai/translations/speech_to_text.py
+++ b/vllm/entrypoints/openai/translations/speech_to_text.py
@@ -37,7 +37,8 @@ from vllm.entrypoints.openai.translations.protocol import (
    TranslationStreamResponse,
 )
 from vllm.exceptions import VLLMValidationError
-from vllm.inputs.data import PromptType
+from vllm.inputs.data import ExplicitEncoderDecoderPrompt, PromptType
+from vllm.inputs.parse import is_explicit_encoder_decoder_prompt
 from vllm.logger import init_logger
 from vllm.logprobs import FlatLogprobs, Logprob
 from vllm.model_executor.models import SupportsTranscription, supports_transcription
@@ -296,26 +297,37 @@ class OpenAISpeechToText(OpenAIServing):
                to_language=to_language,
            )
            if request.response_format == "verbose_json":
-                if not isinstance(prompt, dict):
+                if not is_explicit_encoder_decoder_prompt(prompt):
                    raise VLLMValidationError(
-                        "Expected prompt to be a dict",
+                        "Expected prompt to be an encoder-decoder prompt",
                        parameter="prompt",
                        value=type(prompt).__name__,
                    )
-                prompt_dict = cast(dict, prompt)
-                decoder_prompt = prompt.get("decoder_prompt")
-                if not isinstance(decoder_prompt, str):
-                    raise VLLMValidationError(
-                        "Expected decoder_prompt to be str",
-                        parameter="decoder_prompt",
-                        value=type(decoder_prompt).__name__,
-                    )
-                prompt_dict["decoder_prompt"] = decoder_prompt.replace(
-                    "<|notimestamps|>", "<|0.00|>"
-                )
+
+                prompt = self._preprocess_verbose_prompt(prompt)
+
            prompts.append(prompt)
        return prompts, duration

+    def _repl_verbose_text(self, text: str):
+        return text.replace("<|notimestamps|>", "<|0.00|>")
+
+    def _preprocess_verbose_prompt(self, prompt: ExplicitEncoderDecoderPrompt):
+        dec_prompt = prompt["decoder_prompt"]
+
+        if isinstance(dec_prompt, str):
+            prompt["decoder_prompt"] = self._repl_verbose_text(dec_prompt)
+        elif isinstance(dec_prompt, dict) and "prompt" in dec_prompt:
+            dec_prompt["prompt"] = self._repl_verbose_text(dec_prompt["prompt"])
+        else:
+            raise VLLMValidationError(
+                "Expected decoder_prompt to contain text",
+                parameter="decoder_prompt",
+                value=type(dec_prompt).__name__,
+            )
+
+        return prompt
+
    def _get_verbose_segments(
        self,
        tokens: tuple,