biondizzle/vllm - vllm - Gitea: Git with a cup of tea

Author	SHA1	Message	Date
tingtinggithub	cb15ee28db	Allow Gemma3 to take image embeddings (#28483 ) Signed-off-by: tingtinggithub <streamttt@gmail.com>	2025-11-15 04:18:08 -08:00
Wentao Ye	e64011f29a	[CI] Bug: Fix ci entrypoint pooling (#28684 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-11-13 14:19:35 -08:00
Yannick Schnider	119c4927b3	[Bugfix] Fix validate model input for decoder models (#27099 ) Signed-off-by: Yannick Schnider <yannick.schnider1@ibm.com> Signed-off-by: Yannick Schnider <Yannick.Schnider1@ibm.com> Signed-off-by: Michael Goin <mgoin64@gmail.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com> Co-authored-by: Michael Goin <mgoin64@gmail.com> Co-authored-by: Roger Wang <hey@rogerw.io>	2025-11-13 10:18:47 -08:00
tjandy98	4504e8029b	[Bugfix] Prevent crash on empty grammar string (#28210 ) Signed-off-by: tjandy98 <3953059+tjandy98@users.noreply.github.com>	2025-11-13 06:42:29 +00:00
Wentao Ye	c01f6e525f	[CI] Fix mypy for `vllm/v1/core` and `vllm/v1/engine` (#27108 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-30 11:32:17 +00:00
Harry Mellor	8fcaaf6a16	Update `Optional[x]` -> `x \| None` and `Union[x, y]` to `x \| y` (#26633 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-10-12 09:51:31 -07:00
Cyrus Leung	ad430a67ca	[Metrics] Log multi-modal cache stats and fix reset (#26285 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-10-10 01:45:55 -07:00
Cyrus Leung	4bdf7ac593	[Bugfix] Fix SHM cache initialization (#26427 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-10-09 02:48:04 -07:00
Cyrus Leung	391612e78b	[Frontend] Consolidate tokenizer init code (#26276 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-10-06 09:34:52 +00:00
Harry Mellor	d6953beb91	Convert formatting to use `ruff` instead of `yapf` + `isort` (#26247 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-10-05 07:06:22 -07:00
Cyrus Leung	0ad9951c41	[Input] Remove unused `prompt` field (#26097 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-10-03 00:23:21 -07:00
Nicole LiHui 🥜	af4ee63e0e	typo: remove duplicate `is` (#25641 ) Signed-off-by: nicole-lihui <nicole.li@daocloud.io>	2025-09-25 00:46:22 -07:00
Nicole LiHui 🥜	c85be1f6dd	optimize: eliminate duplicate split_enc_dec_inputs calls (#25573 ) Signed-off-by: nicole-lihui <nicole.li@daocloud.io>	2025-09-25 05:03:25 +00:00
Andrew Sansom	9a4600e4dc	[CORE] Prompt Embeddings Support for v1 Engine (#24278 ) Signed-off-by: Andrew Sansom <andrew@protopia.ai> Signed-off-by: Andrew Sansom <qthequartermasterman@gmail.com> Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com>	2025-09-19 08:03:09 +08:00
Aaron Pham	29283e8976	[Chore] Cleanup guided namespace, move to structured outputs config (#22772 ) Signed-off-by: Aaron Pham <contact@aarnphm.xyz> Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com> Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-09-18 09:20:27 +00:00
Zhuohan Li	6c47f6bfa4	[Core] Remove tokenizer group in vLLM (#24078 ) Signed-off-by: Zhuohan Li <zhuohan123@gmail.com>	2025-09-17 08:42:59 +00:00
Woosuk Kwon	759ef49b15	Remove V0 Encoder-Decoder Support (#24907 ) Signed-off-by: Woosuk Kwon <woosuk@thinkingmachines.ai>	2025-09-15 21:17:14 -07:00
Russell Bryant	4dad72f0d9	[Misc] Correct an outdated comment. (#24765 ) Signed-off-by: Russell Bryant <rbryant@redhat.com>	2025-09-13 00:34:53 -07:00
RichardoMu	40b6c9122b	[V1] feat:add engine v1 tracing (#20372 ) Signed-off-by: Mu Huai <tianbowen.tbw@antgroup.com> Signed-off-by: Ye Zhang <zhysishu@gmail.com> Signed-off-by: RichardoMu <44485717+RichardoMrMu@users.noreply.github.com> Signed-off-by: simon-mo <simon.mo@hey.com> Signed-off-by: Aaron Pham <contact@aarnphm.xyz> Signed-off-by: 22quinn <33176974+22quinn@users.noreply.github.com> Co-authored-by: Mu Huai <tianbowen.tbw@antgroup.com> Co-authored-by: Ye Zhang <zhysishu@gmail.com> Co-authored-by: Benjamin Bartels <benjamin@bartels.dev> Co-authored-by: simon-mo <simon.mo@hey.com> Co-authored-by: 瑜琮 <ly186375@antfin.com> Co-authored-by: Aaron Pham <contact@aarnphm.xyz> Co-authored-by: 22quinn <33176974+22quinn@users.noreply.github.com>	2025-09-11 17:10:39 -07:00
Russell Bryant	37e8182bfe	[v1] Add Whisper model support (encoder-decoder) (#21088 ) Signed-off-by: Russell Bryant <rbryant@redhat.com> Co-authored-by: NickLucche <nlucches@redhat.com>	2025-09-10 13:53:35 -07:00
Chenheli Hua	009d689b0c	[Core] Simplify and unify mm uuid handling & auto-generated mm hash overrides processing. (#24271 ) Signed-off-by: Chenheli Hua <huachenheli@outlook.com>	2025-09-09 21:36:09 -07:00
Xingyu Liu	b3d7e3c845	[Sampler] Support returning all prompt logprobs (#23868 ) Signed-off-by: Xingyu Liu <charlotteliu12x@gmail.com> Co-authored-by: 22quinn <33176974+22quinn@users.noreply.github.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>	2025-09-07 19:34:31 -07:00
Xiaodong Wang	81eea3d348	vllm fix check on max vocab size (#22471 ) Signed-off-by: Roger Wang <hey@rogerw.io> Signed-off-by: Roger Wang <hey@rogerw.me> Co-authored-by: Roger Wang <hey@rogerw.io> Co-authored-by: Roger Wang <hey@rogerw.me>	2025-08-31 20:57:05 +08:00
Roger Wang	749be00a98	[Core][Multimodal] Allow passing `multi_modal_uuids` as multimodal identifiers. (#23394 ) Signed-off-by: Roger Wang <hey@rogerw.io>	2025-08-30 18:01:22 -07:00
Flora Feng	69f46359dd	[Multimodal] Consolidate mm inputs into MultiModalFeatureSpec (#23779 ) Signed-off-by: sfeng33 <4florafeng@gmail.com>	2025-08-29 18:36:57 +08:00
Roger Wang	8bf6266a17	[Multimodal] Generate mm_hash based on request metadata when caching is turned off (#23690 ) Signed-off-by: Roger Wang <hey@rogerw.io>	2025-08-27 20:24:31 +00:00
Cyrus Leung	69244e67e6	[Core] Use key-only cache for `BaseMultiModalProcessor` (#23018 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-08-27 14:19:13 +08:00
Noam Gat	39971db3aa	Frontend: Adding LM Format Enforcer support to V1 engine (#22564 ) Signed-off-by: Noam Gat <noamgat@gmail.com> Co-authored-by: Russell Bryant <rbryant@redhat.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>	2025-08-24 19:31:22 -07:00
汪志鹏	416f05929a	[New Model]Donut model (#23229 ) Signed-off-by: 汪志鹏 <wangzhipeng628@gmail.com>	2025-08-24 12:52:24 +00:00
Roger Wang	79f05e4436	[Multimodal] Always enable hashing mm data (#23308 ) Signed-off-by: Roger Wang <hey@rogerw.io> Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> Co-authored-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-08-21 07:23:28 -07:00
Cyrus Leung	27e8d1ea3e	[Refactor] Define MultiModalKwargsItems separate from MultiModalKwargs (#23053 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-08-18 09:52:00 +00:00
Cyrus Leung	4dff91c93d	[Refactor] Allow optional MultiModalKwargsItem in IPC (#23022 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-08-16 11:30:49 +00:00
Cyrus Leung	19b927e52d	[Core] Use individual MM items in P0/P1 cache and model runner (#22570 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-08-13 07:18:07 -07:00
Roger Wang	08b751ba74	Implicit language-model-only mode via limit-mm-per-prompt (#22299 ) Signed-off-by: Roger Wang <hey@rogerw.me> Signed-off-by: Andy Xie <andy.xning@gmail.com> Signed-off-by: tjtanaa <tunjian.tan@embeddedllm.com> Signed-off-by: Andrew Sansom <andrew@protopia.ai> Signed-off-by: Zhiyu Cheng <zhiyuc@nvidia.com> Signed-off-by: Shu Wang <shuw@nvidia.com> Signed-off-by: Po-Han Huang <pohanh@nvidia.com> Signed-off-by: Shu Wang. <shuw@nvidia.com> Signed-off-by: XIn Li <xinli@nvidia.com> Signed-off-by: Junhao Li <junhao@ubicloud.com> Signed-off-by: chaunceyjiang <chaunceyjiang@gmail.com> Signed-off-by: zRzRzRzRzRzRzR <2448370773@qq.com> Signed-off-by: zitian.zhao <zitian.zhao@tencentmusic.com> Signed-off-by: zitian zhao <zitian.zhao@tencentmusic.com> Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> Signed-off-by: iAmir97 <Amir.balwel@embeddedllm.com> Signed-off-by: iAmir97 <71513472+iAmir97@users.noreply.github.com> Signed-off-by: Linkun <github@lkchen.net> Co-authored-by: Ning Xie <andy.xning@gmail.com> Co-authored-by: TJian <tunjian.tan@embeddedllm.com> Co-authored-by: Andrew Sansom <andrew@protopia.ai> Co-authored-by: Zhiyu <zhiyuc@nvidia.com> Co-authored-by: Shu Wang <shuw@nvidia.com> Co-authored-by: XIn Li <xinli@nvidia.com> Co-authored-by: Junhao Li <streaver91@gmail.com> Co-authored-by: Chauncey <chaunceyjiang@gmail.com> Co-authored-by: Yuxuan Zhang <2448370773@qq.com> Co-authored-by: ZiTian Zhao <zitian.zhao@tencentmusic.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk> Co-authored-by: Po-Han Huang (NVIDIA) <53919306+nvpohanh@users.noreply.github.com> Co-authored-by: iAmir97 <71513472+iAmir97@users.noreply.github.com> Co-authored-by: iAmir97 <Amir.balwel@embeddedllm.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com> Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com> Co-authored-by: Hong Hanh <hanh.usth@gmail.com> Co-authored-by: youkaichao <youkaichao@gmail.com> Co-authored-by: lkchen <github@lkchen.net>	2025-08-08 22:21:40 -07:00
Cyrus Leung	766bc8162c	[Core] Store only the keys for multi-modal data in P0 (#22198 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-08-07 01:45:04 -07:00
22quinn	54de71d0df	[Sampler] Support returning all logprobs or logits (#21792 ) Signed-off-by: 22quinn <33176974+22quinn@users.noreply.github.com>	2025-08-04 03:04:12 -07:00
rongfu.leng	b879ecd6e2	[Bugfix] fix when skip tokenizer init (#21922 ) Signed-off-by: rongfu.leng <rongfu.leng@daocloud.io>	2025-08-01 10:09:36 -07:00
Michael Goin	82ec66f514	[V0 Deprecation] Remove Prompt Adapters (#20588 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2025-07-23 16:36:48 -07:00
Christian Pinto	8560a5b258	[Core][Model] PrithviMAE Enablement on vLLM v1 engine (#20577 ) Signed-off-by: Christian Pinto <christian.pinto@ibm.com>	2025-07-23 11:00:23 -07:00
Nathan Hoos	d6902ce79f	[V0][V1][Core] Add outlines integration for V1, and update V0 integration. (#15975 ) Signed-off-by: Nathan Hoos <thwackyy.y@gmail.com>	2025-07-10 15:30:26 -04:00
Aaron Pham	4a98edff1f	[Structured Outputs][V1] Skipping with models doesn't contain tokenizers (#20365 ) Signed-off-by: Aaron Pham <contact@aarnphm.xyz> Co-authored-by: Nick Hill <nhill@redhat.com>	2025-07-04 15:05:49 +08:00
Michael Goin	f719772281	[Bugfix] Properly reject requests with empty list guided_choice (#20195 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2025-06-27 22:50:52 -07:00
amit	4a0f7888a3	[Core] feat: Implement Priority Scheduling in V1 Engine (#19057 ) Signed-off-by: amit <amit.man@gmail.com> Co-authored-by: Roger Wang <Rogerw0108@gmail.com>	2025-06-22 20:18:08 -07:00
Maximilien de Bayser	799397ee4f	Support embedding models in V1 (#16188 ) Signed-off-by: Max de Bayser <mbayser@br.ibm.com> Signed-off-by: Max de Bayser <maxdebayser@gmail.com> Signed-off-by: 22quinn <33176974+22quinn@users.noreply.github.com> Co-authored-by: 22quinn <33176974+22quinn@users.noreply.github.com>	2025-06-18 21:36:33 -07:00
jmswen	7353492a47	[Core] Raise when non-multi-instance DP clients target a DP rank (#19227 ) Signed-off-by: Jon Swenson <jmswen@gmail.com>	2025-06-06 19:03:01 +08:00
jmswen	c8dcc15921	Allow AsyncLLMEngine.generate to target a specific DP rank (#19102 ) Signed-off-by: Jon Swenson <jmswen@gmail.com>	2025-06-04 08:26:47 -07:00
Simon Mo	02f0c7b220	[Misc] Add SPDX-FileCopyrightText (#19100 ) Signed-off-by: simon-mo <simon.mo@hey.com>	2025-06-03 11:20:17 -07:00
Cyrus Leung	61e0a506a3	[Bugfix] Avoid repeatedly creating dummy data during engine startup (#17935 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-05-12 22:40:19 -07:00
Cheng Kuan Yong Jason	08bf784078	[Bugfix] validate grammar and throw 400 error instead of crashing the engine when xgrammar validation fails (#17623 ) Signed-off-by: Jason Cheng <jasoncky96@gmail.com> Co-authored-by: Russell Bryant <rbryant@redhat.com>	2025-05-12 09:06:10 +08:00
Ben Browning	8132365b74	[Bugfix]: v1 engine - consider lora adapters in allowed_token_ids (#17855 ) Signed-off-by: Ben Browning <bbrownin@redhat.com>	2025-05-11 00:53:58 -07:00

1 2 3

112 Commits