diff --git a/vllm/entrypoints/openai/api_server.py b/vllm/entrypoints/openai/api_server.py
index a1ee3607a..d1da420f6 100644
--- a/vllm/entrypoints/openai/api_server.py
+++ b/vllm/entrypoints/openai/api_server.py
@@ -190,11 +190,11 @@ def build_app(args: Namespace, supported_tasks: tuple["SupportedTask", ...]) ->
         register_generate_api_routers(app)
 
     if "transcription" in supported_tasks:
-        from vllm.entrypoints.openai.translations.api_router import (
-            attach_router as register_translations_api_router,
+        from vllm.entrypoints.openai.speech_to_text.api_router import (
+            attach_router as register_speech_to_text_api_router,
         )
 
-        register_translations_api_router(app)
+        register_speech_to_text_api_router(app)
 
     if "realtime" in supported_tasks:
         from vllm.entrypoints.openai.realtime.api_router import (
@@ -318,7 +318,7 @@ async def init_app_state(
         )
 
     if "transcription" in supported_tasks:
-        from vllm.entrypoints.openai.translations.api_router import (
+        from vllm.entrypoints.openai.speech_to_text.api_router import (
             init_transcription_state,
         )
 
diff --git a/vllm/entrypoints/openai/engine/serving.py b/vllm/entrypoints/openai/engine/serving.py
index 801c7dcd5..f87ac5804 100644
--- a/vllm/entrypoints/openai/engine/serving.py
+++ b/vllm/entrypoints/openai/engine/serving.py
@@ -57,7 +57,7 @@ from vllm.entrypoints.openai.responses.protocol import (
 from vllm.entrypoints.openai.responses.utils import (
     construct_input_messages,
 )
-from vllm.entrypoints.openai.translations.protocol import (
+from vllm.entrypoints.openai.speech_to_text.protocol import (
     TranscriptionRequest,
     TranscriptionResponse,
     TranslationRequest,
diff --git a/vllm/entrypoints/openai/translations/__init__.py b/vllm/entrypoints/openai/speech_to_text/__init__.py
similarity index 100%
rename from vllm/entrypoints/openai/translations/__init__.py
rename to vllm/entrypoints/openai/speech_to_text/__init__.py
diff --git a/vllm/entrypoints/openai/translations/api_router.py b/vllm/entrypoints/openai/speech_to_text/api_router.py
similarity index 97%
rename from vllm/entrypoints/openai/translations/api_router.py
rename to vllm/entrypoints/openai/speech_to_text/api_router.py
index 7dd95161f..7477b79c0 100644
--- a/vllm/entrypoints/openai/translations/api_router.py
+++ b/vllm/entrypoints/openai/speech_to_text/api_router.py
@@ -9,13 +9,13 @@ from fastapi import APIRouter, FastAPI, Form, Request
 from fastapi.responses import JSONResponse, StreamingResponse
 
 from vllm.entrypoints.openai.engine.protocol import ErrorResponse
-from vllm.entrypoints.openai.translations.protocol import (
+from vllm.entrypoints.openai.speech_to_text.protocol import (
     TranscriptionRequest,
     TranscriptionResponseVariant,
     TranslationRequest,
     TranslationResponseVariant,
 )
-from vllm.entrypoints.openai.translations.serving import (
+from vllm.entrypoints.openai.speech_to_text.serving import (
     OpenAIServingTranscription,
     OpenAIServingTranslation,
 )
diff --git a/vllm/entrypoints/openai/translations/protocol.py b/vllm/entrypoints/openai/speech_to_text/protocol.py
similarity index 100%
rename from vllm/entrypoints/openai/translations/protocol.py
rename to vllm/entrypoints/openai/speech_to_text/protocol.py
diff --git a/vllm/entrypoints/openai/translations/serving.py b/vllm/entrypoints/openai/speech_to_text/serving.py
similarity index 97%
rename from vllm/entrypoints/openai/translations/serving.py
rename to vllm/entrypoints/openai/speech_to_text/serving.py
index 646789bba..9d18f5aa3 100644
--- a/vllm/entrypoints/openai/translations/serving.py
+++ b/vllm/entrypoints/openai/speech_to_text/serving.py
@@ -11,7 +11,7 @@ from vllm.entrypoints.openai.engine.protocol import (
     RequestResponseMetadata,
 )
 from vllm.entrypoints.openai.models.serving import OpenAIServingModels
-from vllm.entrypoints.openai.translations.protocol import (
+from vllm.entrypoints.openai.speech_to_text.protocol import (
     TranscriptionRequest,
     TranscriptionResponse,
     TranscriptionResponseStreamChoice,
@@ -23,7 +23,7 @@ from vllm.entrypoints.openai.translations.protocol import (
     TranslationResponseVerbose,
     TranslationStreamResponse,
 )
-from vllm.entrypoints.openai.translations.speech_to_text import OpenAISpeechToText
+from vllm.entrypoints.openai.speech_to_text.speech_to_text import OpenAISpeechToText
 from vllm.logger import init_logger
 from vllm.outputs import RequestOutput
 
diff --git a/vllm/entrypoints/openai/translations/speech_to_text.py b/vllm/entrypoints/openai/speech_to_text/speech_to_text.py
similarity index 99%
rename from vllm/entrypoints/openai/translations/speech_to_text.py
rename to vllm/entrypoints/openai/speech_to_text/speech_to_text.py
index 58bfb3e97..19dccbb17 100644
--- a/vllm/entrypoints/openai/translations/speech_to_text.py
+++ b/vllm/entrypoints/openai/speech_to_text/speech_to_text.py
@@ -24,7 +24,7 @@ from vllm.entrypoints.openai.engine.protocol import (
 )
 from vllm.entrypoints.openai.engine.serving import OpenAIServing, SpeechToTextRequest
 from vllm.entrypoints.openai.models.serving import OpenAIServingModels
-from vllm.entrypoints.openai.translations.protocol import (
+from vllm.entrypoints.openai.speech_to_text.protocol import (
     TranscriptionResponse,
     TranscriptionResponseStreamChoice,
     TranscriptionResponseVerbose,
@@ -402,7 +402,7 @@ class OpenAISpeechToText(OpenAIServing):
         audio_data: bytes,
         request: SpeechToTextRequest,
         raw_request: Request,
-        response_class: type[T | V],
+        response_class: type[ResponseType],
         stream_generator_method: Callable[..., AsyncGenerator[str, None]],
     ) -> T | V | AsyncGenerator[str, None] | ErrorResponse:
         """Base method for speech-to-text operations like transcription and