vllm/entrypoints/openai/api_server.py

import argparse
import asyncio
import json
from contextlib import asynccontextmanager
from aioprometheus import MetricsMiddleware
from aioprometheus.asgi.starlette import metrics
import fastapi
import uvicorn
from http import HTTPStatus
from fastapi import Request
from fastapi.exceptions import RequestValidationError
from fastapi.middleware.cors import CORSMiddleware
from fastapi.responses import JSONResponse, StreamingResponse, Response

from vllm.engine.arg_utils import AsyncEngineArgs
from vllm.engine.async_llm_engine import AsyncLLMEngine
from vllm.engine.metrics import add_global_metrics_labels
from vllm.entrypoints.openai.protocol import CompletionRequest, ChatCompletionRequest, ErrorResponse
from vllm.logger import init_logger
from vllm.entrypoints.openai.serving_chat import OpenAIServingChat
from vllm.entrypoints.openai.serving_completion import OpenAIServingCompletion

TIMEOUT_KEEP_ALIVE = 5  # seconds

openai_serving_chat: OpenAIServingChat = None
openai_serving_completion: OpenAIServingCompletion = None
logger = init_logger(__name__)


@asynccontextmanager
async def lifespan(app: fastapi.FastAPI):

    async def _force_log():
        while True:
            await asyncio.sleep(10)
            await engine.do_log_stats()

    if not engine_args.disable_log_stats:
        asyncio.create_task(_force_log())

    yield


app = fastapi.FastAPI(lifespan=lifespan)


def parse_args():
    parser = argparse.ArgumentParser(
        description="vLLM OpenAI-Compatible RESTful API server.")
    parser.add_argument("--host", type=str, default=None, help="host name")
    parser.add_argument("--port", type=int, default=8000, help="port number")
    parser.add_argument("--allow-credentials",
                        action="store_true",
                        help="allow credentials")
    parser.add_argument("--allowed-origins",
                        type=json.loads,
                        default=["*"],
                        help="allowed origins")
    parser.add_argument("--allowed-methods",
                        type=json.loads,
                        default=["*"],
                        help="allowed methods")
    parser.add_argument("--allowed-headers",
                        type=json.loads,
                        default=["*"],
                        help="allowed headers")
    parser.add_argument("--served-model-name",
                        type=str,
                        default=None,
                        help="The model name used in the API. If not "
                        "specified, the model name will be the same as "
                        "the huggingface name.")
    parser.add_argument("--chat-template",
                        type=str,
                        default=None,
                        help="The file path to the chat template, "
                        "or the template in single-line form "
                        "for the specified model")
    parser.add_argument("--response-role",
                        type=str,
                        default="assistant",
                        help="The role name to return if "
                        "`request.add_generation_prompt=true`.")
    parser.add_argument("--ssl-keyfile",
                        type=str,
                        default=None,
                        help="The file path to the SSL key file")
    parser.add_argument("--ssl-certfile",
                        type=str,
                        default=None,
                        help="The file path to the SSL cert file")
    parser.add_argument(
        "--root-path",
        type=str,
        default=None,
        help="FastAPI root_path when app is behind a path based routing proxy")

    parser = AsyncEngineArgs.add_cli_args(parser)
    return parser.parse_args()


app.add_middleware(MetricsMiddleware)  # Trace HTTP server metrics
app.add_route("/metrics", metrics)  # Exposes HTTP metrics


@app.exception_handler(RequestValidationError)
async def validation_exception_handler(_, exc):
    err = openai_serving_chat.create_error_response(message=str(exc))
    return JSONResponse(err.model_dump(), status_code=HTTPStatus.BAD_REQUEST)


@app.get("/health")
async def health() -> Response:
    """Health check."""
    return Response(status_code=200)


@app.get("/v1/models")
async def show_available_models():
    models = await openai_serving_chat.show_available_models()
    return JSONResponse(content=models.model_dump())


@app.post("/v1/chat/completions")
async def create_chat_completion(request: ChatCompletionRequest,
                                 raw_request: Request):
    generator = await openai_serving_chat.create_chat_completion(
        request, raw_request)
    if isinstance(generator, ErrorResponse):
        return JSONResponse(content=generator.model_dump(),
                            status_code=generator.code)
    if request.stream:
        return StreamingResponse(content=generator,
                                 media_type="text/event-stream")
    else:
        return JSONResponse(content=generator.model_dump())


@app.post("/v1/completions")
async def create_completion(request: CompletionRequest, raw_request: Request):
    generator = await openai_serving_completion.create_completion(
        request, raw_request)
    if isinstance(generator, ErrorResponse):
        return JSONResponse(content=generator.model_dump(),
                            status_code=generator.code)
    if request.stream:
        return StreamingResponse(content=generator,
                                 media_type="text/event-stream")
    else:
        return JSONResponse(content=generator.model_dump())


if __name__ == "__main__":
    args = parse_args()

    app.add_middleware(
        CORSMiddleware,
        allow_origins=args.allowed_origins,
        allow_credentials=args.allow_credentials,
        allow_methods=args.allowed_methods,
        allow_headers=args.allowed_headers,
    )

    logger.info(f"args: {args}")

    if args.served_model_name is not None:
        served_model = args.served_model_name
    else:
        served_model = args.model

    engine_args = AsyncEngineArgs.from_cli_args(args)
    engine = AsyncLLMEngine.from_engine_args(engine_args)
    openai_serving_chat = OpenAIServingChat(engine, served_model,
                                            args.response_role,
                                            args.chat_template)
    openai_serving_completion = OpenAIServingCompletion(engine, served_model)

    # Register labels for metrics
    add_global_metrics_labels(model_name=engine_args.model)

    app.root_path = args.root_path
    uvicorn.run(app,
                host=args.host,
                port=args.port,
                log_level="info",
                timeout_keep_alive=TIMEOUT_KEEP_ALIVE,
                ssl_keyfile=args.ssl_keyfile,
                ssl_certfile=args.ssl_certfile)
OpenAI Compatible Frontend (#116) 2023-05-23 21:39:50 -07:00			`import argparse`
[Quality] Add CI for formatting (#343) 2023-07-03 14:50:56 -07:00			`import asyncio`
OpenAI Compatible Frontend (#116) 2023-05-23 21:39:50 -07:00			`import json`
Ensure metrics are logged regardless of requests (#2347) 2024-01-05 15:24:42 +02:00			`from contextlib import asynccontextmanager`
Add Production Metrics in Prometheus format (#1890) 2023-12-02 16:37:44 -08:00			`from aioprometheus import MetricsMiddleware`
			`from aioprometheus.asgi.starlette import metrics`
OpenAI Compatible Frontend (#116) 2023-05-23 21:39:50 -07:00			`import fastapi`
Supports tokens and arrays of tokens as inputs to the OpenAI completion API (#715) 2023-08-11 12:14:34 -07:00			`import uvicorn`
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00			`from http import HTTPStatus`
clean api code, remove redundant background task. (#1102) 2023-09-22 04:25:05 +08:00			`from fastapi import Request`
OpenAI Compatible Frontend (#116) 2023-05-23 21:39:50 -07:00			`from fastapi.exceptions import RequestValidationError`
			`from fastapi.middleware.cors import CORSMiddleware`
Add `/health` Endpoint for both Servers (#1540) 2023-11-01 22:59:44 +05:30			`from fastapi.responses import JSONResponse, StreamingResponse, Response`
OpenAI Compatible Frontend (#116) 2023-05-23 21:39:50 -07:00
Change the name to vLLM (#150) 2023-06-17 03:07:40 -07:00			`from vllm.engine.arg_utils import AsyncEngineArgs`
			`from vllm.engine.async_llm_engine import AsyncLLMEngine`
Add Production Metrics in Prometheus format (#1890) 2023-12-02 16:37:44 -08:00			`from vllm.engine.metrics import add_global_metrics_labels`
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00			`from vllm.entrypoints.openai.protocol import CompletionRequest, ChatCompletionRequest, ErrorResponse`
Change the name to vLLM (#150) 2023-06-17 03:07:40 -07:00			`from vllm.logger import init_logger`
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00			`from vllm.entrypoints.openai.serving_chat import OpenAIServingChat`
			`from vllm.entrypoints.openai.serving_completion import OpenAIServingCompletion`
OpenAI Compatible Frontend (#116) 2023-05-23 21:39:50 -07:00
[Quality] Add code formatter and linter (#326) 2023-07-03 11:31:55 -07:00			`TIMEOUT_KEEP_ALIVE = 5 # seconds`
OpenAI Compatible Frontend (#116) 2023-05-23 21:39:50 -07:00
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00			`openai_serving_chat: OpenAIServingChat = None`
			`openai_serving_completion: OpenAIServingCompletion = None`
OpenAI Compatible Frontend (#116) 2023-05-23 21:39:50 -07:00			`logger = init_logger(__name__)`
Support chat template and `echo` for chat API (#1756) 2023-11-30 19:43:13 -05:00

Ensure metrics are logged regardless of requests (#2347) 2024-01-05 15:24:42 +02:00			`@asynccontextmanager`
			`async def lifespan(app: fastapi.FastAPI):`

			`async def _force_log():`
			`while True:`
			`await asyncio.sleep(10)`
			`await engine.do_log_stats()`

			`if not engine_args.disable_log_stats:`
			`asyncio.create_task(_force_log())`

			`yield`


			`app = fastapi.FastAPI(lifespan=lifespan)`


Support chat template and `echo` for chat API (#1756) 2023-11-30 19:43:13 -05:00			`def parse_args():`
			`parser = argparse.ArgumentParser(`
			`description="vLLM OpenAI-Compatible RESTful API server.")`
			`parser.add_argument("--host", type=str, default=None, help="host name")`
			`parser.add_argument("--port", type=int, default=8000, help="port number")`
			`parser.add_argument("--allow-credentials",`
			`action="store_true",`
			`help="allow credentials")`
			`parser.add_argument("--allowed-origins",`
			`type=json.loads,`
			`default=["*"],`
			`help="allowed origins")`
			`parser.add_argument("--allowed-methods",`
			`type=json.loads,`
			`default=["*"],`
			`help="allowed methods")`
			`parser.add_argument("--allowed-headers",`
			`type=json.loads,`
			`default=["*"],`
			`help="allowed headers")`
			`parser.add_argument("--served-model-name",`
			`type=str,`
			`default=None,`
			`help="The model name used in the API. If not "`
			`"specified, the model name will be the same as "`
			`"the huggingface name.")`
			`parser.add_argument("--chat-template",`
			`type=str,`
			`default=None,`
			`help="The file path to the chat template, "`
			`"or the template in single-line form "`
			`"for the specified model")`
			`parser.add_argument("--response-role",`
			`type=str,`
			`default="assistant",`
			`help="The role name to return if "`
			"`request.add_generation_prompt=true`.")
Add SSL arguments to API servers (#2109) 2023-12-18 02:56:23 +00:00			`parser.add_argument("--ssl-keyfile",`
			`type=str,`
			`default=None,`
			`help="The file path to the SSL key file")`
			`parser.add_argument("--ssl-certfile",`
			`type=str,`
			`default=None,`
			`help="The file path to the SSL cert file")`
Allow setting fastapi root_path argument (#2341) 2024-01-13 00:29:59 +05:30			`parser.add_argument(`
			`"--root-path",`
			`type=str,`
			`default=None,`
			`help="FastAPI root_path when app is behind a path based routing proxy")`
Support chat template and `echo` for chat API (#1756) 2023-11-30 19:43:13 -05:00
			`parser = AsyncEngineArgs.add_cli_args(parser)`
			`return parser.parse_args()`
OpenAI Compatible Frontend (#116) 2023-05-23 21:39:50 -07:00

Add Production Metrics in Prometheus format (#1890) 2023-12-02 16:37:44 -08:00			`app.add_middleware(MetricsMiddleware) # Trace HTTP server metrics`
			`app.add_route("/metrics", metrics) # Exposes HTTP metrics`


OpenAI Compatible Frontend (#116) 2023-05-23 21:39:50 -07:00			`@app.exception_handler(RequestValidationError)`
Migrate linter from `pylint` to `ruff` (#1665) 2023-11-20 11:58:01 -08:00			`async def validation_exception_handler(_, exc):`
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00			`err = openai_serving_chat.create_error_response(message=str(exc))`
migrate pydantic from v1 to v2 (#2531) 2024-01-22 01:05:56 +01:00			`return JSONResponse(err.model_dump(), status_code=HTTPStatus.BAD_REQUEST)`
feat: add ChatCompletion endpoint in OpenAI demo server. (#330) 2023-07-03 13:54:33 +08:00

Add `/health` Endpoint for both Servers (#1540) 2023-11-01 22:59:44 +05:30			`@app.get("/health")`
			`async def health() -> Response:`
			`"""Health check."""`
			`return Response(status_code=200)`


OpenAI Compatible Frontend (#116) 2023-05-23 21:39:50 -07:00			`@app.get("/v1/models")`
			`async def show_available_models():`
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00			`models = await openai_serving_chat.show_available_models()`
migrate pydantic from v1 to v2 (#2531) 2024-01-22 01:05:56 +01:00			`return JSONResponse(content=models.model_dump())`
OpenAI Compatible Frontend (#116) 2023-05-23 21:39:50 -07:00

feat: add ChatCompletion endpoint in OpenAI demo server. (#330) 2023-07-03 13:54:33 +08:00			`@app.post("/v1/chat/completions")`
Enable request body OpenAPI spec for OpenAI endpoints (#865) 2023-08-29 21:54:08 -07:00			`async def create_chat_completion(request: ChatCompletionRequest,`
			`raw_request: Request):`
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00			`generator = await openai_serving_chat.create_chat_completion(`
			`request, raw_request)`
migrate pydantic from v1 to v2 (#2531) 2024-01-22 01:05:56 +01:00			`if isinstance(generator, ErrorResponse):`
			`return JSONResponse(content=generator.model_dump(),`
			`status_code=generator.code)`
			`if request.stream:`
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00			`return StreamingResponse(content=generator,`
feat: add ChatCompletion endpoint in OpenAI demo server. (#330) 2023-07-03 13:54:33 +08:00			`media_type="text/event-stream")`
Support chat template and `echo` for chat API (#1756) 2023-11-30 19:43:13 -05:00			`else:`
migrate pydantic from v1 to v2 (#2531) 2024-01-22 01:05:56 +01:00			`return JSONResponse(content=generator.model_dump())`
feat: add ChatCompletion endpoint in OpenAI demo server. (#330) 2023-07-03 13:54:33 +08:00

OpenAI Compatible Frontend (#116) 2023-05-23 21:39:50 -07:00			`@app.post("/v1/completions")`
Enable request body OpenAPI spec for OpenAI endpoints (#865) 2023-08-29 21:54:08 -07:00			`async def create_completion(request: CompletionRequest, raw_request: Request):`
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00			`generator = await openai_serving_completion.create_completion(`
			`request, raw_request)`
migrate pydantic from v1 to v2 (#2531) 2024-01-22 01:05:56 +01:00			`if isinstance(generator, ErrorResponse):`
			`return JSONResponse(content=generator.model_dump(),`
			`status_code=generator.code)`
			`if request.stream:`
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00			`return StreamingResponse(content=generator,`
OpenAI Compatible Frontend (#116) 2023-05-23 21:39:50 -07:00			`media_type="text/event-stream")`
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00			`else:`
migrate pydantic from v1 to v2 (#2531) 2024-01-22 01:05:56 +01:00			`return JSONResponse(content=generator.model_dump())`
OpenAI Compatible Frontend (#116) 2023-05-23 21:39:50 -07:00

			`if __name__ == "__main__":`
Support chat template and `echo` for chat API (#1756) 2023-11-30 19:43:13 -05:00			`args = parse_args()`
OpenAI Compatible Frontend (#116) 2023-05-23 21:39:50 -07:00
			`app.add_middleware(`
			`CORSMiddleware,`
			`allow_origins=args.allowed_origins,`
			`allow_credentials=args.allow_credentials,`
			`allow_methods=args.allowed_methods,`
			`allow_headers=args.allowed_headers,`
			`)`

			`logger.info(f"args: {args}")`

[Server] Add option to specify chat template for chat endpoint (#345) 2023-07-03 23:01:56 -07:00			`if args.served_model_name is not None:`
			`served_model = args.served_model_name`
			`else:`
			`served_model = args.model`

Rename servers to engines (#152) 2023-06-17 17:25:21 +08:00			`engine_args = AsyncEngineArgs.from_cli_args(args)`
Start background task in `AsyncLLMEngine.generate` (#988) Co-authored-by: Zhuohan Li <zhuohan123@gmail.com> 2023-09-08 00:03:39 -07:00			`engine = AsyncLLMEngine.from_engine_args(engine_args)`
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00			`openai_serving_chat = OpenAIServingChat(engine, served_model,`
			`args.response_role,`
			`args.chat_template)`
			`openai_serving_completion = OpenAIServingCompletion(engine, served_model)`
OpenAI Compatible Frontend (#116) 2023-05-23 21:39:50 -07:00
Add Production Metrics in Prometheus format (#1890) 2023-12-02 16:37:44 -08:00			`# Register labels for metrics`
			`add_global_metrics_labels(model_name=engine_args.model)`

Allow setting fastapi root_path argument (#2341) 2024-01-13 00:29:59 +05:30			`app.root_path = args.root_path`
[Quality] Add code formatter and linter (#326) 2023-07-03 11:31:55 -07:00			`uvicorn.run(app,`
			`host=args.host,`
			`port=args.port,`
			`log_level="info",`
Add SSL arguments to API servers (#2109) 2023-12-18 02:56:23 +00:00			`timeout_keep_alive=TIMEOUT_KEEP_ALIVE,`
			`ssl_keyfile=args.ssl_keyfile,`
			`ssl_certfile=args.ssl_certfile)`