[Doc] Show that use_audio_in_video is supported in docs (#30837)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
2026-01-06 15:27:19 +08:00
parent 1fb0209bbc
commit da71d44410
4 changed files with 0 additions and 8 deletions
--- a/vllm/model_executor/models/qwen2_5_omni_thinker.py
+++ b/vllm/model_executor/models/qwen2_5_omni_thinker.py
@@ -1128,8 +1128,6 @@ class Qwen2_5OmniThinkerForConditionalGeneration(
                multimodal_embeddings += tuple(audio_embeddings)
        return multimodal_embeddings

-    # TODO (ywang96): support overlapping modality embeddings so that
-    # `use_audio_in_video` will work on V1.
    def embed_input_ids(
        self,
        input_ids: torch.Tensor,
--- a/vllm/model_executor/models/qwen3_omni_moe_thinker.py
+++ b/vllm/model_executor/models/qwen3_omni_moe_thinker.py
@@ -1371,8 +1371,6 @@ class Qwen3OmniMoeThinkerForConditionalGeneration(
            return inputs_embeds

        deepstack_input_embeds = None
-        # TODO (ywang96): support overlapping modalitiy embeddings so that
-        # `use_audio_in_video` will work on V1.
        # split the feat dim to obtain multi-scale visual feature
        has_vision_embeddings = [
            embeddings.shape[-1] != self.config.text_config.hidden_size