[Cohere] Enable Cohere-Transcribe (#38120)

Signed-off-by: Ekagra Ranjan <3116519+ekagra-ranjan@users.noreply.github.com>
2026-03-25 19:13:51 -04:00
parent a0e8c74005
commit 7b54f60db0
6 changed files with 23 additions and 11 deletions
--- a/tests/entrypoints/openai/correctness/test_transcription_api_correctness.py
+++ b/tests/entrypoints/openai/correctness/test_transcription_api_correctness.py
@@ -19,6 +19,7 @@ import soundfile
 import torch
 from datasets import load_dataset
 from evaluate import load
+from transformers.models.whisper.english_normalizer import EnglishTextNormalizer

 from vllm.tokenizers import get_tokenizer

@@ -33,6 +34,16 @@ def to_bytes(y, sr):
    return buffer


+# not all models have a normalizer so use the one from whisper as a standard option
+normalizer_model_info = HF_EXAMPLE_MODELS.find_hf_info("openai/whisper-large-v3")
+normalizer_tokenizer = get_tokenizer(
+    "openai/whisper-large-v3",
+    tokenizer_mode=normalizer_model_info.tokenizer_mode,
+    trust_remote_code=normalizer_model_info.trust_remote_code,
+)
+normalizer = EnglishTextNormalizer(normalizer_tokenizer.english_spelling_normalizer)
+
+
 async def transcribe_audio(client, tokenizer, y, sr):
    # Send loaded audio directly instead of loading from disk,
    # don't account for that time though
@@ -58,8 +69,8 @@ async def bound_transcribe(sem, client, tokenizer, audio, reference):
    async with sem:
        result = await transcribe_audio(client, tokenizer, *audio)
        # Normalize *english* output/reference for evaluation.
-        out = tokenizer.normalize(result[2])
-        ref = tokenizer.normalize(reference)
+        out = normalizer(result[2])
+        ref = normalizer(reference)
        return result[:2] + (out, ref)


@@ -156,8 +167,9 @@ def run_evaluation(
    "model_config",
    [
        ("openai/whisper-large-v3", 12.744980),
-        # TODO (ekagra): add HF ckpt after asr release
-        # ("/host/engines/vllm/audio/2b-release", 11.73),
+        # TODO (ekagra): turn on after asr release
+        # CohereASR is used to test the variable encoder length code paths
+        # ("CohereLabs/cohere-transcribe-03-2026", 11.92),
    ],
 )
 # Original dataset is 20GB+ in size, hence we use a pre-filtered slice.