vllm/entrypoints/openai/api_server.py

import asyncio
import importlib
import inspect
import re
from contextlib import asynccontextmanager
from http import HTTPStatus
from typing import Optional, Set

import fastapi
import uvicorn
from fastapi import Request
from fastapi.exceptions import RequestValidationError
from fastapi.middleware.cors import CORSMiddleware
from fastapi.responses import JSONResponse, Response, StreamingResponse
from prometheus_client import make_asgi_app
from starlette.routing import Mount

import vllm.envs as envs
from vllm.engine.arg_utils import AsyncEngineArgs
from vllm.engine.async_llm_engine import AsyncLLMEngine
from vllm.entrypoints.openai.cli_args import make_arg_parser
# yapf conflicts with isort for this block
# yapf: disable
from vllm.entrypoints.openai.protocol import (ChatCompletionRequest,
                                              ChatCompletionResponse,
                                              CompletionRequest,
                                              DetokenizeRequest,
                                              DetokenizeResponse,
                                              EmbeddingRequest, ErrorResponse,
                                              TokenizeRequest,
                                              TokenizeResponse)
# yapf: enable
from vllm.entrypoints.openai.serving_chat import OpenAIServingChat
from vllm.entrypoints.openai.serving_completion import OpenAIServingCompletion
from vllm.entrypoints.openai.serving_embedding import OpenAIServingEmbedding
from vllm.logger import init_logger
from vllm.usage.usage_lib import UsageContext
from vllm.version import __version__ as VLLM_VERSION

TIMEOUT_KEEP_ALIVE = 5  # seconds

openai_serving_chat: OpenAIServingChat
openai_serving_completion: OpenAIServingCompletion
openai_serving_embedding: OpenAIServingEmbedding

logger = init_logger('vllm.entrypoints.openai.api_server')

_running_tasks: Set[asyncio.Task] = set()


@asynccontextmanager
async def lifespan(app: fastapi.FastAPI):

    async def _force_log():
        while True:
            await asyncio.sleep(10)
            await engine.do_log_stats()

    if not engine_args.disable_log_stats:
        task = asyncio.create_task(_force_log())
        _running_tasks.add(task)
        task.add_done_callback(_running_tasks.remove)

    yield


app = fastapi.FastAPI(lifespan=lifespan)


def parse_args():
    parser = make_arg_parser()
    return parser.parse_args()


# Add prometheus asgi middleware to route /metrics requests
route = Mount("/metrics", make_asgi_app())
# Workaround for 307 Redirect for /metrics
route.path_regex = re.compile('^/metrics(?P<path>.*)$')
app.routes.append(route)


@app.exception_handler(RequestValidationError)
async def validation_exception_handler(_, exc):
    err = openai_serving_chat.create_error_response(message=str(exc))
    return JSONResponse(err.model_dump(), status_code=HTTPStatus.BAD_REQUEST)


@app.get("/health")
async def health() -> Response:
    """Health check."""
    await openai_serving_chat.engine.check_health()
    return Response(status_code=200)


@app.post("/tokenize")
async def tokenize(request: TokenizeRequest):
    generator = await openai_serving_completion.create_tokenize(request)
    if isinstance(generator, ErrorResponse):
        return JSONResponse(content=generator.model_dump(),
                            status_code=generator.code)
    else:
        assert isinstance(generator, TokenizeResponse)
        return JSONResponse(content=generator.model_dump())


@app.post("/detokenize")
async def detokenize(request: DetokenizeRequest):
    generator = await openai_serving_completion.create_detokenize(request)
    if isinstance(generator, ErrorResponse):
        return JSONResponse(content=generator.model_dump(),
                            status_code=generator.code)
    else:
        assert isinstance(generator, DetokenizeResponse)
        return JSONResponse(content=generator.model_dump())


@app.get("/v1/models")
async def show_available_models():
    models = await openai_serving_chat.show_available_models()
    return JSONResponse(content=models.model_dump())


@app.get("/version")
async def show_version():
    ver = {"version": VLLM_VERSION}
    return JSONResponse(content=ver)


@app.post("/v1/chat/completions")
async def create_chat_completion(request: ChatCompletionRequest,
                                 raw_request: Request):
    generator = await openai_serving_chat.create_chat_completion(
        request, raw_request)
    if isinstance(generator, ErrorResponse):
        return JSONResponse(content=generator.model_dump(),
                            status_code=generator.code)
    if request.stream:
        return StreamingResponse(content=generator,
                                 media_type="text/event-stream")
    else:
        assert isinstance(generator, ChatCompletionResponse)
        return JSONResponse(content=generator.model_dump())


@app.post("/v1/completions")
async def create_completion(request: CompletionRequest, raw_request: Request):
    generator = await openai_serving_completion.create_completion(
        request, raw_request)
    if isinstance(generator, ErrorResponse):
        return JSONResponse(content=generator.model_dump(),
                            status_code=generator.code)
    if request.stream:
        return StreamingResponse(content=generator,
                                 media_type="text/event-stream")
    else:
        return JSONResponse(content=generator.model_dump())


@app.post("/v1/embeddings")
async def create_embedding(request: EmbeddingRequest, raw_request: Request):
    generator = await openai_serving_embedding.create_embedding(
        request, raw_request)
    if isinstance(generator, ErrorResponse):
        return JSONResponse(content=generator.model_dump(),
                            status_code=generator.code)
    else:
        return JSONResponse(content=generator.model_dump())


if __name__ == "__main__":
    args = parse_args()

    app.add_middleware(
        CORSMiddleware,
        allow_origins=args.allowed_origins,
        allow_credentials=args.allow_credentials,
        allow_methods=args.allowed_methods,
        allow_headers=args.allowed_headers,
    )

    if token := envs.VLLM_API_KEY or args.api_key:

        @app.middleware("http")
        async def authentication(request: Request, call_next):
            root_path = "" if args.root_path is None else args.root_path
            if request.method == "OPTIONS":
                return await call_next(request)
            if not request.url.path.startswith(f"{root_path}/v1"):
                return await call_next(request)
            if request.headers.get("Authorization") != "Bearer " + token:
                return JSONResponse(content={"error": "Unauthorized"},
                                    status_code=401)
            return await call_next(request)

    for middleware in args.middleware:
        module_path, object_name = middleware.rsplit(".", 1)
        imported = getattr(importlib.import_module(module_path), object_name)
        if inspect.isclass(imported):
            app.add_middleware(imported)
        elif inspect.iscoroutinefunction(imported):
            app.middleware("http")(imported)
        else:
            raise ValueError(f"Invalid middleware {middleware}. "
                             f"Must be a function or a class.")

    logger.info("vLLM API server version %s", VLLM_VERSION)
    logger.info("args: %s", args)

    if args.served_model_name is not None:
        served_model_names = args.served_model_name
    else:
        served_model_names = [args.model]

    engine_args = AsyncEngineArgs.from_cli_args(args)

    engine = AsyncLLMEngine.from_engine_args(
        engine_args, usage_context=UsageContext.OPENAI_API_SERVER)

    event_loop: Optional[asyncio.AbstractEventLoop]
    try:
        event_loop = asyncio.get_running_loop()
    except RuntimeError:
        event_loop = None

    if event_loop is not None and event_loop.is_running():
        # If the current is instanced by Ray Serve,
        # there is already a running event loop
        model_config = event_loop.run_until_complete(engine.get_model_config())
    else:
        # When using single vLLM without engine_use_ray
        model_config = asyncio.run(engine.get_model_config())

    openai_serving_chat = OpenAIServingChat(engine, model_config,
                                            served_model_names,
                                            args.response_role,
                                            args.lora_modules,
                                            args.chat_template)
    openai_serving_completion = OpenAIServingCompletion(
        engine, model_config, served_model_names, args.lora_modules)
    openai_serving_embedding = OpenAIServingEmbedding(engine, model_config,
                                                      served_model_names)
    app.root_path = args.root_path

    logger.info("Available routes are:")
    for route in app.routes:
        if not hasattr(route, 'methods'):
            continue
        methods = ', '.join(route.methods)
        logger.info("Route: %s, Methods: %s", route.path, methods)

    uvicorn.run(app,
                host=args.host,
                port=args.port,
                log_level=args.uvicorn_log_level,
                timeout_keep_alive=TIMEOUT_KEEP_ALIVE,
                ssl_keyfile=args.ssl_keyfile,
                ssl_certfile=args.ssl_certfile,
                ssl_ca_certs=args.ssl_ca_certs,
                ssl_cert_reqs=args.ssl_cert_reqs)
[Quality] Add CI for formatting (#343) 2023-07-03 14:50:56 -07:00			`import asyncio`
[Feature] Simple API token authentication and pluggable middlewares (#1106) 2024-01-23 18:13:00 -05:00			`import importlib`
			`import inspect`
[Bugfix] Fix 307 Redirect for `/metrics` (#4523) 2024-05-01 12:14:13 -04:00			`import re`
[CI] Try introducing isort. (#3495) 2024-03-25 23:59:47 +09:00			`from contextlib import asynccontextmanager`
			`from http import HTTPStatus`
[Frontend] Move async logic outside of constructor (#4674) 2024-05-09 13:48:33 +08:00			`from typing import Optional, Set`
[Feature] Simple API token authentication and pluggable middlewares (#1106) 2024-01-23 18:13:00 -05:00
OpenAI Compatible Frontend (#116) 2023-05-23 21:39:50 -07:00			`import fastapi`
Supports tokens and arrays of tokens as inputs to the OpenAI completion API (#715) 2023-08-11 12:14:34 -07:00			`import uvicorn`
clean api code, remove redundant background task. (#1102) 2023-09-22 04:25:05 +08:00			`from fastapi import Request`
OpenAI Compatible Frontend (#116) 2023-05-23 21:39:50 -07:00			`from fastapi.exceptions import RequestValidationError`
			`from fastapi.middleware.cors import CORSMiddleware`
[CI] Try introducing isort. (#3495) 2024-03-25 23:59:47 +09:00			`from fastapi.responses import JSONResponse, Response, StreamingResponse`
			`from prometheus_client import make_asgi_app`
[Bugfix] Fix 307 Redirect for `/metrics` (#4523) 2024-05-01 12:14:13 -04:00			`from starlette.routing import Mount`
OpenAI Compatible Frontend (#116) 2023-05-23 21:39:50 -07:00
[Misc] centralize all usage of environment variables (#4548) 2024-05-02 11:13:25 -07:00			`import vllm.envs as envs`
Change the name to vLLM (#150) 2023-06-17 03:07:40 -07:00			`from vllm.engine.arg_utils import AsyncEngineArgs`
			`from vllm.engine.async_llm_engine import AsyncLLMEngine`
[Doc] Add docs about OpenAI compatible server (#3288) 2024-03-18 22:05:34 -07:00			`from vllm.entrypoints.openai.cli_args import make_arg_parser`
[Frontend] Add tokenize/detokenize endpoints (#5054) 2024-06-26 16:54:22 +00:00			`# yapf conflicts with isort for this block`
			`# yapf: disable`
[CI] Try introducing isort. (#3495) 2024-03-25 23:59:47 +09:00			`from vllm.entrypoints.openai.protocol import (ChatCompletionRequest,`
[Mypy] Part 3 fix typing for nested directories for most of directory (#4161) 2024-04-23 13:32:44 +09:00			`ChatCompletionResponse,`
[Model][Misc] Add e5-mistral-7b-instruct and Embedding API (#3734) 2024-05-11 11:30:37 -07:00			`CompletionRequest,`
[Frontend] Add tokenize/detokenize endpoints (#5054) 2024-06-26 16:54:22 +00:00			`DetokenizeRequest,`
			`DetokenizeResponse,`
			`EmbeddingRequest, ErrorResponse,`
			`TokenizeRequest,`
			`TokenizeResponse)`
			`# yapf: enable`
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00			`from vllm.entrypoints.openai.serving_chat import OpenAIServingChat`
			`from vllm.entrypoints.openai.serving_completion import OpenAIServingCompletion`
[Model][Misc] Add e5-mistral-7b-instruct and Embedding API (#3734) 2024-05-11 11:30:37 -07:00			`from vllm.entrypoints.openai.serving_embedding import OpenAIServingEmbedding`
[CI] Try introducing isort. (#3495) 2024-03-25 23:59:47 +09:00			`from vllm.logger import init_logger`
Usage Stats Collection (#2852) 2024-03-28 22:16:12 -07:00			`from vllm.usage.usage_lib import UsageContext`
[Misc] Add vLLM version getter to utils (#5098) 2024-06-14 02:21:39 +08:00			`from vllm.version import __version__ as VLLM_VERSION`
OpenAI Compatible Frontend (#116) 2023-05-23 21:39:50 -07:00
[Quality] Add code formatter and linter (#326) 2023-07-03 11:31:55 -07:00			`TIMEOUT_KEEP_ALIVE = 5 # seconds`
OpenAI Compatible Frontend (#116) 2023-05-23 21:39:50 -07:00
[Mypy] Part 3 fix typing for nested directories for most of directory (#4161) 2024-04-23 13:32:44 +09:00			`openai_serving_chat: OpenAIServingChat`
			`openai_serving_completion: OpenAIServingCompletion`
[Model][Misc] Add e5-mistral-7b-instruct and Embedding API (#3734) 2024-05-11 11:30:37 -07:00			`openai_serving_embedding: OpenAIServingEmbedding`

[Bugfix] Fix call to init_logger in openai server (#4765) 2024-06-01 20:18:50 +03:00			`logger = init_logger('vllm.entrypoints.openai.api_server')`
Support chat template and `echo` for chat API (#1756) 2023-11-30 19:43:13 -05:00
[Bugfix] Fix `asyncio.Task` not being subscriptable (#4623) 2024-05-07 00:31:05 +08:00			`_running_tasks: Set[asyncio.Task] = set()`
[BugFix] Prevent the task of `_force_log` from being garbage collected (#4567) 2024-05-02 18:35:18 -07:00
Support chat template and `echo` for chat API (#1756) 2023-11-30 19:43:13 -05:00
Ensure metrics are logged regardless of requests (#2347) 2024-01-05 15:24:42 +02:00			`@asynccontextmanager`
			`async def lifespan(app: fastapi.FastAPI):`

			`async def _force_log():`
			`while True:`
			`await asyncio.sleep(10)`
			`await engine.do_log_stats()`

			`if not engine_args.disable_log_stats:`
[BugFix] Prevent the task of `_force_log` from being garbage collected (#4567) 2024-05-02 18:35:18 -07:00			`task = asyncio.create_task(_force_log())`
			`_running_tasks.add(task)`
			`task.add_done_callback(_running_tasks.remove)`
Ensure metrics are logged regardless of requests (#2347) 2024-01-05 15:24:42 +02:00
			`yield`


			`app = fastapi.FastAPI(lifespan=lifespan)`


Support chat template and `echo` for chat API (#1756) 2023-11-30 19:43:13 -05:00			`def parse_args():`
[Doc] Add docs about OpenAI compatible server (#3288) 2024-03-18 22:05:34 -07:00			`parser = make_arg_parser()`
Support chat template and `echo` for chat API (#1756) 2023-11-30 19:43:13 -05:00			`return parser.parse_args()`
OpenAI Compatible Frontend (#116) 2023-05-23 21:39:50 -07:00

Port metrics from `aioprometheus` to `prometheus_client` (#2730) 2024-02-25 19:54:00 +00:00			`# Add prometheus asgi middleware to route /metrics requests`
[Bugfix] Fix 307 Redirect for `/metrics` (#4523) 2024-05-01 12:14:13 -04:00			`route = Mount("/metrics", make_asgi_app())`
			`# Workaround for 307 Redirect for /metrics`
			`route.path_regex = re.compile('^/metrics(?P<path>.*)$')`
			`app.routes.append(route)`
Add Production Metrics in Prometheus format (#1890) 2023-12-02 16:37:44 -08:00

OpenAI Compatible Frontend (#116) 2023-05-23 21:39:50 -07:00			`@app.exception_handler(RequestValidationError)`
Migrate linter from `pylint` to `ruff` (#1665) 2023-11-20 11:58:01 -08:00			`async def validation_exception_handler(_, exc):`
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00			`err = openai_serving_chat.create_error_response(message=str(exc))`
migrate pydantic from v1 to v2 (#2531) 2024-01-22 01:05:56 +01:00			`return JSONResponse(err.model_dump(), status_code=HTTPStatus.BAD_REQUEST)`
feat: add ChatCompletion endpoint in OpenAI demo server. (#330) 2023-07-03 13:54:33 +08:00

Add `/health` Endpoint for both Servers (#1540) 2023-11-01 22:59:44 +05:30			`@app.get("/health")`
			`async def health() -> Response:`
			`"""Health check."""`
Connect engine healthcheck to openai server (#3260) 2024-03-07 16:38:12 -08:00			`await openai_serving_chat.engine.check_health()`
Add `/health` Endpoint for both Servers (#1540) 2023-11-01 22:59:44 +05:30			`return Response(status_code=200)`


[Frontend] Add tokenize/detokenize endpoints (#5054) 2024-06-26 16:54:22 +00:00			`@app.post("/tokenize")`
			`async def tokenize(request: TokenizeRequest):`
			`generator = await openai_serving_completion.create_tokenize(request)`
			`if isinstance(generator, ErrorResponse):`
			`return JSONResponse(content=generator.model_dump(),`
			`status_code=generator.code)`
			`else:`
			`assert isinstance(generator, TokenizeResponse)`
			`return JSONResponse(content=generator.model_dump())`


			`@app.post("/detokenize")`
			`async def detokenize(request: DetokenizeRequest):`
			`generator = await openai_serving_completion.create_detokenize(request)`
			`if isinstance(generator, ErrorResponse):`
			`return JSONResponse(content=generator.model_dump(),`
			`status_code=generator.code)`
			`else:`
			`assert isinstance(generator, DetokenizeResponse)`
			`return JSONResponse(content=generator.model_dump())`


OpenAI Compatible Frontend (#116) 2023-05-23 21:39:50 -07:00			`@app.get("/v1/models")`
			`async def show_available_models():`
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00			`models = await openai_serving_chat.show_available_models()`
migrate pydantic from v1 to v2 (#2531) 2024-01-22 01:05:56 +01:00			`return JSONResponse(content=models.model_dump())`
OpenAI Compatible Frontend (#116) 2023-05-23 21:39:50 -07:00

Add vLLM version info to logs and openai API server (#3161) 2024-03-03 00:00:29 -05:00			`@app.get("/version")`
			`async def show_version():`
[Misc] Add vLLM version getter to utils (#5098) 2024-06-14 02:21:39 +08:00			`ver = {"version": VLLM_VERSION}`
Add vLLM version info to logs and openai API server (#3161) 2024-03-03 00:00:29 -05:00			`return JSONResponse(content=ver)`


feat: add ChatCompletion endpoint in OpenAI demo server. (#330) 2023-07-03 13:54:33 +08:00			`@app.post("/v1/chat/completions")`
Enable request body OpenAPI spec for OpenAI endpoints (#865) 2023-08-29 21:54:08 -07:00			`async def create_chat_completion(request: ChatCompletionRequest,`
			`raw_request: Request):`
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00			`generator = await openai_serving_chat.create_chat_completion(`
			`request, raw_request)`
migrate pydantic from v1 to v2 (#2531) 2024-01-22 01:05:56 +01:00			`if isinstance(generator, ErrorResponse):`
			`return JSONResponse(content=generator.model_dump(),`
			`status_code=generator.code)`
			`if request.stream:`
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00			`return StreamingResponse(content=generator,`
feat: add ChatCompletion endpoint in OpenAI demo server. (#330) 2023-07-03 13:54:33 +08:00			`media_type="text/event-stream")`
Support chat template and `echo` for chat API (#1756) 2023-11-30 19:43:13 -05:00			`else:`
[Mypy] Part 3 fix typing for nested directories for most of directory (#4161) 2024-04-23 13:32:44 +09:00			`assert isinstance(generator, ChatCompletionResponse)`
migrate pydantic from v1 to v2 (#2531) 2024-01-22 01:05:56 +01:00			`return JSONResponse(content=generator.model_dump())`
feat: add ChatCompletion endpoint in OpenAI demo server. (#330) 2023-07-03 13:54:33 +08:00

OpenAI Compatible Frontend (#116) 2023-05-23 21:39:50 -07:00			`@app.post("/v1/completions")`
Enable request body OpenAPI spec for OpenAI endpoints (#865) 2023-08-29 21:54:08 -07:00			`async def create_completion(request: CompletionRequest, raw_request: Request):`
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00			`generator = await openai_serving_completion.create_completion(`
			`request, raw_request)`
migrate pydantic from v1 to v2 (#2531) 2024-01-22 01:05:56 +01:00			`if isinstance(generator, ErrorResponse):`
			`return JSONResponse(content=generator.model_dump(),`
			`status_code=generator.code)`
			`if request.stream:`
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00			`return StreamingResponse(content=generator,`
OpenAI Compatible Frontend (#116) 2023-05-23 21:39:50 -07:00			`media_type="text/event-stream")`
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00			`else:`
migrate pydantic from v1 to v2 (#2531) 2024-01-22 01:05:56 +01:00			`return JSONResponse(content=generator.model_dump())`
OpenAI Compatible Frontend (#116) 2023-05-23 21:39:50 -07:00

[Model][Misc] Add e5-mistral-7b-instruct and Embedding API (#3734) 2024-05-11 11:30:37 -07:00			`@app.post("/v1/embeddings")`
			`async def create_embedding(request: EmbeddingRequest, raw_request: Request):`
			`generator = await openai_serving_embedding.create_embedding(`
			`request, raw_request)`
			`if isinstance(generator, ErrorResponse):`
			`return JSONResponse(content=generator.model_dump(),`
			`status_code=generator.code)`
			`else:`
			`return JSONResponse(content=generator.model_dump())`


OpenAI Compatible Frontend (#116) 2023-05-23 21:39:50 -07:00			`if __name__ == "__main__":`
Support chat template and `echo` for chat API (#1756) 2023-11-30 19:43:13 -05:00			`args = parse_args()`
OpenAI Compatible Frontend (#116) 2023-05-23 21:39:50 -07:00
			`app.add_middleware(`
			`CORSMiddleware,`
			`allow_origins=args.allowed_origins,`
			`allow_credentials=args.allow_credentials,`
			`allow_methods=args.allowed_methods,`
			`allow_headers=args.allowed_headers,`
			`)`

[Misc] centralize all usage of environment variables (#4548) 2024-05-02 11:13:25 -07:00			`if token := envs.VLLM_API_KEY or args.api_key:`
[Feature] Simple API token authentication and pluggable middlewares (#1106) 2024-01-23 18:13:00 -05:00
			`@app.middleware("http")`
			`async def authentication(request: Request, call_next):`
[Frontend][Bugfix] allow using the default middleware with a root path (#3788) Co-authored-by: A-Mahla <> 2024-04-02 10:20:28 +02:00			`root_path = "" if args.root_path is None else args.root_path`
[Bugfix] Bypass authorization API token for preflight requests (#4862) 2024-05-16 18:42:21 +02:00			`if request.method == "OPTIONS":`
			`return await call_next(request)`
[Frontend][Bugfix] allow using the default middleware with a root path (#3788) Co-authored-by: A-Mahla <> 2024-04-02 10:20:28 +02:00			`if not request.url.path.startswith(f"{root_path}/v1"):`
[Feature] Simple API token authentication and pluggable middlewares (#1106) 2024-01-23 18:13:00 -05:00			`return await call_next(request)`
			`if request.headers.get("Authorization") != "Bearer " + token:`
			`return JSONResponse(content={"error": "Unauthorized"},`
			`status_code=401)`
			`return await call_next(request)`

			`for middleware in args.middleware:`
			`module_path, object_name = middleware.rsplit(".", 1)`
			`imported = getattr(importlib.import_module(module_path), object_name)`
			`if inspect.isclass(imported):`
			`app.add_middleware(imported)`
			`elif inspect.iscoroutinefunction(imported):`
			`app.middleware("http")(imported)`
			`else:`
Re-enable the 80 char line width limit (#3305) 2024-03-10 19:49:14 -07:00			`raise ValueError(f"Invalid middleware {middleware}. "`
			`f"Must be a function or a class.")`
[Feature] Simple API token authentication and pluggable middlewares (#1106) 2024-01-23 18:13:00 -05:00
[Misc] Add vLLM version getter to utils (#5098) 2024-06-14 02:21:39 +08:00			`logger.info("vLLM API server version %s", VLLM_VERSION)`
[CI] Disable non-lazy string operation on logging (#4326) Co-authored-by: Danny Guinther <dguinther@neuralmagic.com> 2024-04-26 16:16:58 +09:00			`logger.info("args: %s", args)`
OpenAI Compatible Frontend (#116) 2023-05-23 21:39:50 -07:00
[Server] Add option to specify chat template for chat endpoint (#345) 2023-07-03 23:01:56 -07:00			`if args.served_model_name is not None:`
Allow model to be served under multiple names (#2894) Co-authored-by: Alexandre Payot <alexandrep@graphcore.ai> 2024-04-18 08:16:26 +01:00			`served_model_names = args.served_model_name`
[Server] Add option to specify chat template for chat endpoint (#345) 2023-07-03 23:01:56 -07:00			`else:`
Allow model to be served under multiple names (#2894) Co-authored-by: Alexandre Payot <alexandrep@graphcore.ai> 2024-04-18 08:16:26 +01:00			`served_model_names = [args.model]`
[Frontend] Move async logic outside of constructor (#4674) 2024-05-09 13:48:33 +08:00
Rename servers to engines (#152) 2023-06-17 17:25:21 +08:00			`engine_args = AsyncEngineArgs.from_cli_args(args)`
[Frontend][Misc] Enforce Pixel Values as Input Type for VLMs in API Server (#5374) 2024-06-10 02:13:39 -07:00
Usage Stats Collection (#2852) 2024-03-28 22:16:12 -07:00			`engine = AsyncLLMEngine.from_engine_args(`
			`engine_args, usage_context=UsageContext.OPENAI_API_SERVER)`
[Frontend] Move async logic outside of constructor (#4674) 2024-05-09 13:48:33 +08:00
			`event_loop: Optional[asyncio.AbstractEventLoop]`
			`try:`
			`event_loop = asyncio.get_running_loop()`
			`except RuntimeError:`
			`event_loop = None`

			`if event_loop is not None and event_loop.is_running():`
			`# If the current is instanced by Ray Serve,`
			`# there is already a running event loop`
			`model_config = event_loop.run_until_complete(engine.get_model_config())`
			`else:`
			`# When using single vLLM without engine_use_ray`
			`model_config = asyncio.run(engine.get_model_config())`

			`openai_serving_chat = OpenAIServingChat(engine, model_config,`
			`served_model_names,`
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00			`args.response_role,`
multi-LoRA as extra models in OpenAI server (#2775) how to serve the loras (mimicking the [multilora inference example](https://github.com/vllm-project/vllm/blob/main/examples/multilora_inference.py)): ```terminal $ export LORA_PATH=~/.cache/huggingface/hub/models--yard1--llama-2-7b-sql-lora-test/ $ python -m vllm.entrypoints.api_server \ --model meta-llama/Llama-2-7b-hf \ --enable-lora \ --lora-modules sql-lora=$LORA_PATH sql-lora2=$LORA_PATH ``` the above server will list 3 separate values if the user queries `/models`: one for the base served model, and one each for the specified lora modules. in this case sql-lora and sql-lora2 point to the same underlying lora, but this need not be the case. lora config values take the same values they do in EngineArgs no work has been done here to scope client permissions to specific models 2024-02-17 15:00:48 -05:00			`args.lora_modules,`
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00			`args.chat_template)`
multi-LoRA as extra models in OpenAI server (#2775) how to serve the loras (mimicking the [multilora inference example](https://github.com/vllm-project/vllm/blob/main/examples/multilora_inference.py)): ```terminal $ export LORA_PATH=~/.cache/huggingface/hub/models--yard1--llama-2-7b-sql-lora-test/ $ python -m vllm.entrypoints.api_server \ --model meta-llama/Llama-2-7b-hf \ --enable-lora \ --lora-modules sql-lora=$LORA_PATH sql-lora2=$LORA_PATH ``` the above server will list 3 separate values if the user queries `/models`: one for the base served model, and one each for the specified lora modules. in this case sql-lora and sql-lora2 point to the same underlying lora, but this need not be the case. lora config values take the same values they do in EngineArgs no work has been done here to scope client permissions to specific models 2024-02-17 15:00:48 -05:00			`openai_serving_completion = OpenAIServingCompletion(`
[Frontend] Move async logic outside of constructor (#4674) 2024-05-09 13:48:33 +08:00			`engine, model_config, served_model_names, args.lora_modules)`
[Model][Misc] Add e5-mistral-7b-instruct and Embedding API (#3734) 2024-05-11 11:30:37 -07:00			`openai_serving_embedding = OpenAIServingEmbedding(engine, model_config,`
			`served_model_names)`
Allow setting fastapi root_path argument (#2341) 2024-01-13 00:29:59 +05:30			`app.root_path = args.root_path`
[misc][frontend] log all available endpoints (#6195) Co-authored-by: Cody Yu <hao.yu.cody@gmail.com> 2024-07-07 15:11:12 -07:00
			`logger.info("Available routes are:")`
			`for route in app.routes:`
			`if not hasattr(route, 'methods'):`
			`continue`
			`methods = ', '.join(route.methods)`
			`logger.info("Route: %s, Methods: %s", route.path, methods)`

[Quality] Add code formatter and linter (#326) 2023-07-03 11:31:55 -07:00			`uvicorn.run(app,`
			`host=args.host,`
			`port=args.port,`
allow user chose log level by --log-level instead of fixed 'info'. (#3109) Co-authored-by: zixiao <shunli.dsl@alibaba-inc.com> Co-authored-by: Simon Mo <simon.mo@hey.com> 2024-03-02 07:28:41 +08:00			`log_level=args.uvicorn_log_level,`
Add SSL arguments to API servers (#2109) 2023-12-18 02:56:23 +00:00			`timeout_keep_alive=TIMEOUT_KEEP_ALIVE,`
			`ssl_keyfile=args.ssl_keyfile,`
[Fix] Add args for mTLS support (#3430) Co-authored-by: declark1 <daniel.clark@ibm.com> 2024-03-15 09:56:13 -07:00			`ssl_certfile=args.ssl_certfile,`
			`ssl_ca_certs=args.ssl_ca_certs,`
			`ssl_cert_reqs=args.ssl_cert_reqs)`