[Core] [Frontend] Priority scheduling for embeddings and in the OpenAI-API (#8965)

2024-10-01 11:58:06 +02:00
parent 1fe0a4264a
commit 35bd215168
8 changed files with 53 additions and 5 deletions
--- a/vllm/entrypoints/openai/serving_chat.py
+++ b/vllm/entrypoints/openai/serving_chat.py
@@ -235,6 +235,7 @@ class OpenAIServingChat(OpenAIServing):
                lora_request=lora_request,
                trace_headers=trace_headers,
                prompt_adapter_request=prompt_adapter_request,
+                priority=request.priority,
            )
        except ValueError as e:
            # TODO: Use a vllm-specific Validation Error