biondizzle/vllm - vllm - Gitea: Git with a cup of tea

Author	SHA1	Message	Date
Lucia Fang	bab9231bf1	[Model] MTP fallback to eager for DeepSeek v32 (#25982 ) Signed-off-by: Lu Fang <fanglu@fb.com> Signed-off-by: simon-mo <simon.mo@hey.com>	2025-09-30 22:47:38 -07:00
qizixi	c214d699fd	[spec decode] Consolidate speculative decode method name for MTP (#25232 ) Signed-off-by: zixi-qi <qizixi@meta.com>	2025-09-30 22:47:11 -07:00
Nicolò Lucchesi	d0b178cef1	[NIXL] Add support for MLA caches with different latent dim (#25902 ) Signed-off-by: NickLucche <nlucches@redhat.com> Signed-off-by: Chen Zhang <zhangch99@outlook.com> Co-authored-by: Chen Zhang <zhangch99@outlook.com> Signed-off-by: simon-mo <simon.mo@hey.com>	2025-09-30 22:36:24 -07:00
Yongye Zhu	b3230e1ac0	[New Model] DeepSeek-V3.2 (Rebased to Main) (#25896 ) Signed-off-by: Chen Zhang <zhangch99@outlook.com> Signed-off-by: youkaichao <youkaichao@gmail.com> Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com> Signed-off-by: mgoin <mgoin64@gmail.com> Signed-off-by: NickLucche <nlucches@redhat.com> Signed-off-by: Yongye Zhu <zyy1102000@gmail.com> Signed-off-by: Barry Kang <43644113+Barry-Delaney@users.noreply.github.com> Signed-off-by: Lucia Fang <fanglu@meta.com> Co-authored-by: Chen Zhang <zhangch99@outlook.com> Co-authored-by: youkaichao <youkaichao@gmail.com> Co-authored-by: Lucas Wilkinson <lwilkins@redhat.com> Co-authored-by: Robert Shaw <114415538+robertgshaw2-redhat@users.noreply.github.com> Co-authored-by: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com> Co-authored-by: yewentao256 <zhyanwentao@126.com> Co-authored-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com> Co-authored-by: mgoin <mgoin64@gmail.com> Co-authored-by: Lucia Fang <116399278+luccafong@users.noreply.github.com> Co-authored-by: Lucia Fang <fanglu@meta.com> Co-authored-by: NickLucche <nlucches@redhat.com> Co-authored-by: Siyuan Fu <siyuanf@nvidia.com> Co-authored-by: Matthew Bonanni <mbonanni@redhat.com> Co-authored-by: Xiaozhu Meng <mxz297@gmail.com> Co-authored-by: Barry Kang <43644113+Barry-Delaney@users.noreply.github.com> Signed-off-by: simon-mo <simon.mo@hey.com>	2025-09-30 22:36:24 -07:00
Seiji Eicher	8d52f2b3a7	[ray][metrics] Replace ':' with '_' for OpenTelemetry compatibility in Ray (#25439 ) Signed-off-by: Seiji Eicher <seiji@anyscale.com> Signed-off-by: Seiji Eicher <58963096+eicherseiji@users.noreply.github.com> Co-authored-by: Rui Qiao <161574667+ruisearch42@users.noreply.github.com>	2025-09-26 09:43:30 -07:00
Cyrus Leung	db1e42f627	[CI/Build] Fix some V1 tests not being run (#25569 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-09-26 20:52:36 +08:00
wang.yuqi	fe6b19c314	[Bugfix] Properly abort pooling request. (#25734 ) Signed-off-by: wang.yuqi <noooop@126.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>	2025-09-26 05:47:34 -07:00
Chauncey	2827b3f4a3	[CI] Fix test_shared_storage_connector_hashes (#25748 ) Signed-off-by: chaunceyjiang <chaunceyjiang@gmail.com>	2025-09-26 20:46:17 +08:00
Ekagra Ranjan	e71b8e210d	[Spec Decode] Add Batch Parallel Ngram. Upto 8x lower overhead. (#24986 ) Signed-off-by: Ekagra Ranjan <3116519+ekagra-ranjan@users.noreply.github.com> Co-authored-by: Nick Hill <nhill@redhat.com>	2025-09-25 15:22:03 -07:00
Matthew Bonanni	3468f17ebe	[V0 deprecation] Remove _VLLM_V1 suffixes from attention backend names (#25489 ) Signed-off-by: Matthew Bonanni <mbonanni@redhat.com> Signed-off-by: Matthew Bonanni <mbonanni001@gmail.com>	2025-09-25 17:37:50 +00:00
Cyrus Leung	2f17117606	[mypy] Fix wrong type annotations related to tuple (#25660 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-09-25 13:00:45 +00:00
Jonas M. Kübler	58c360d9be	[Bug] fix import and unit test (#25558 ) Signed-off-by: Jonas M. Kübler <44084297+jmkuebler@users.noreply.github.com>	2025-09-24 10:17:59 +00:00
Chengji Yao	190c45a6af	[TPU][Bugfix] fix the missing apply_model in tpu worker (#25526 ) Signed-off-by: Chengji Yao <chengjiyao@google.com>	2025-09-24 05:18:08 +00:00
Benjamin Chislett	c30b405b8f	[Spec Decode] Enable FlashInfer Spec Decoding (#25196 ) Signed-off-by: Benjamin Chislett <benjamin.chislett@centml.ai> Signed-off-by: Benjamin Chislett <bchislett@nvidia.com> Co-authored-by: lhsjohn <huashuoli@tencent.com>	2025-09-23 22:29:58 -04:00
Doug Smith	7ad5e50adf	Improve output when failing json.loads() on structured output test (#25483 ) Signed-off-by: dougbtv <dosmith@redhat.com>	2025-09-23 18:03:31 -06:00
kourosh hakhamaneshi	abad204be6	[BugFix] Fix OOM in vLLM replicas by ensuring consistent NCCL memory accounting (#25359 ) Signed-off-by: Kourosh Hakhamaneshi <kourosh@anyscale.com>	2025-09-23 15:49:09 -07:00
Jialin Ouyang	4f8c4b890a	[Core] Use KVCacheBlock as much as possible instead of dict[block_id, KVCacheBlock] (#24830 ) Signed-off-by: Jialin Ouyang <Jialin.Ouyang@gmail.com>	2025-09-23 15:11:14 -07:00
jiahanc	d5944d5146	[Speculators][Speculative Decoding] Fix gpt-oss eagle3 accuracy issue (#25406 ) Signed-off-by: jiahanc <173873397+jiahanc@users.noreply.github.com>	2025-09-23 15:44:35 -04:00
Harry Mellor	875d6def90	Add backward compatibility for `GuidedDecodingParams` (#25422 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-09-23 17:07:30 +01:00
Lucas Wilkinson	cc1dc7ed6d	[Core/DBO][2/N] Dual-Batch Overlap add DeepEP High Throughput support and Prefill support (#24845 ) Signed-off-by: Sage Moore <sage@neuralmagic.com> Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com> Signed-off-by: yewentao256 <zhyanwentao@126.com> Signed-off-by: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com> Signed-off-by: Tyler Michael Smith <tyler@neuralmagic.com> Co-authored-by: Sage Moore <sage@neuralmagic.com> Co-authored-by: yewentao256 <zhyanwentao@126.com> Co-authored-by: Tyler Michael Smith <tyler@neuralmagic.com>	2025-09-23 16:02:10 +00:00
Peter Pan	da5e7e4329	[Docs] NixlConnector quickstart guide (#24249 ) Signed-off-by: Peter Pan <Peter.Pan@daocloud.io> Signed-off-by: Peter Pan <peter.pan@daocloud.io> Signed-off-by: Nicolò Lucchesi<nicolo.lucchesi@gmail.com> Co-authored-by: Nicolò Lucchesi <nicolo.lucchesi@gmail.com>	2025-09-23 14:23:22 +00:00
Chauncey	f05a4f0e34	[P/D] Support NIXL connector to disconnect during a clean shutdown (#24423 ) Signed-off-by: chaunceyjiang <chaunceyjiang@gmail.com> Co-authored-by: Mark McLoughlin <markmc@redhat.com>	2025-09-23 16:08:02 +02:00
Chendi.Xue	5774b0a1da	[NIXL][OOT platform] support nixl_connector with oot platform and other nixl_backend (#25121 ) Signed-off-by: Chendi Xue <Chendi.Xue@intel.com>	2025-09-23 04:17:42 +00:00
Isotr0py	6fa78d8f23	[V0 deprecation] Remove platform v1 controling interface (#25410 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-09-23 01:48:12 +00:00
Nicolò Lucchesi	090197034f	[Bugfix] Fix missing `clear_connector_metadata` (#25397 ) Signed-off-by: NickLucche <nlucches@redhat.com>	2025-09-23 08:10:59 +08:00
Or Ozeri	8db2939289	[KV offload][5/N] Add `CPUOffloadingSpec` (#24251 ) Signed-off-by: Or Ozeri <oro@il.ibm.com>	2025-09-22 12:30:36 -07:00
Daisy-Ma-coder	cfbee3d0e7	[CLI env var] Add VLLM_FLASH_ATTN_MAX_NUM_SPLITS_FOR_CUDA_GRAPH in env variables (#25274 ) Signed-off-by: qqma <qqma@amazon.com> Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> Co-authored-by: qqma <qqma@amazon.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>	2025-09-22 10:37:43 -07:00
Nicolò Lucchesi	4cf71cc88a	[TPU] Deprecate `xm.mark_step` in favor of ``torch_xla.sync` (#25254 ) Signed-off-by: NickLucche <nlucches@redhat.com> Co-authored-by: Ye (Charlotte) Qi <yeq@meta.com>	2025-09-22 10:12:57 +00:00
Woosuk Kwon	0ff8ebb2d7	[V0 Deprecation] Remove async_output_proc, preemption mode, delay factor (#25334 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>	2025-09-21 08:52:32 -07:00
Woosuk Kwon	26e673fe93	[V0 Deprecation] Remove V0 Sequence class & Sampler (#25332 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu> Signed-off-by: Woosuk Kwon <woosuk@thinkingmachines.ai>	2025-09-21 08:52:15 -07:00
Isotr0py	cf56cf78b4	[V1] Add sliding window support to Flex Attention backend (#24089 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-09-21 05:08:07 +00:00
Chen Zhang	9607d5eb44	[Hybrid Allocator] Support full attention with different hidden size (#25101 ) Signed-off-by: Chen Zhang <zhangch99@outlook.com>	2025-09-19 23:43:59 -07:00
Nick Hill	535d80056b	[Misc] Support more collective_rpc return types (#25294 ) Signed-off-by: Nick Hill <nhill@redhat.com>	2025-09-20 02:02:38 +00:00
Or Ozeri	c59a0eca42	[KV offload][4/N] Offloading KV connector (#22595 ) Signed-off-by: Or Ozeri <oro@il.ibm.com>	2025-09-19 19:07:17 +00:00
Jialin Ouyang	2506ce5189	[Core][Prefix Hash] Fix prefix hash metrics sliding window maintainance (#24990 ) Signed-off-by: Jialin Ouyang <Jialin.Ouyang@gmail.com>	2025-09-19 12:22:53 -06:00
Cyrus Leung	6c117cff7d	[Frontend] Pass API server count to each process (#23717 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-09-20 01:15:19 +08:00
Or Ozeri	7ac67ea525	[KV offload][3/N] Add worker-side CPU support (#21448 ) Signed-off-by: Or Ozeri <oro@il.ibm.com>	2025-09-19 09:53:45 -07:00
Harry Mellor	aed16879a9	Move `ModelConfig` from `config/__init__.py` to `config/model.py` (#25252 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-09-19 16:22:33 +00:00
Nicolò Lucchesi	a3d087adec	[P/D][Nixl] Introduce `KVTransferMetrics` and aggregation strategy (#22188 ) Signed-off-by: NickLucche <nlucches@redhat.com>	2025-09-19 11:09:14 +00:00
Or Ozeri	9d1c50a5ac	[KV offload][2/N] Introduce LRU-based CPU offloading management (#20075 ) Signed-off-by: Or Ozeri <oro@il.ibm.com>	2025-09-19 00:20:51 +00:00
Or Ozeri	a53ad626d6	[KV offload][1b/N] rename offloading to kv_offload (#25191 ) Signed-off-by: Or Ozeri <oro@il.ibm.com>	2025-09-18 20:53:52 +00:00
Woosuk Kwon	e19bce40a1	[V0 Deprecation] Remove AsyncLLMEngine (#25025 ) Signed-off-by: Woosuk Kwon <woosuk@thinkingmachines.ai> Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>	2025-09-18 11:07:42 -07:00
Or Ozeri	505805b645	[KV offload][1/N] Introduce an offloading component (#19848 ) Signed-off-by: Or Ozeri <oro@il.ibm.com>	2025-09-18 10:57:07 -07:00
Aaron Pham	29283e8976	[Chore] Cleanup guided namespace, move to structured outputs config (#22772 ) Signed-off-by: Aaron Pham <contact@aarnphm.xyz> Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com> Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-09-18 09:20:27 +00:00
Benjamin Chislett	b7433ca1a4	[Spec Decode] Efficient padded speculation (#24539 ) Signed-off-by: Benjamin Chislett <bchislett@nvidia.com>	2025-09-18 01:07:24 -04:00
Woosuk Kwon	2fc24e94f9	[V0 Deprecation] Remove V0 Tracing & Metrics tests (#25115 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>	2025-09-17 19:40:44 -07:00
afeldman-nm	7ae9887542	[V1] Logits processor docs (#22919 ) Signed-off-by: Andrew Feldman <afeldman@redhat.com> Signed-off-by: afeldman-nm <156691304+afeldman-nm@users.noreply.github.com> Co-authored-by: Joseph Marinier <Joseph.Marinier@gmail.com>	2025-09-17 11:53:12 -07:00
Woosuk Kwon	eb68c2dcd9	[CI] Revert back prepare_prompts and check_answers (#25087 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>	2025-09-17 11:03:16 -07:00
Zhuohan Li	6c47f6bfa4	[Core] Remove tokenizer group in vLLM (#24078 ) Signed-off-by: Zhuohan Li <zhuohan123@gmail.com>	2025-09-17 08:42:59 +00:00
Nick Hill	eeb135eb87	[Core] Use `CpuGpuBuffer` for block table tensors (#24795 ) Signed-off-by: Nick Hill <nhill@redhat.com>	2025-09-16 19:18:06 -07:00

1 2 3 4 5 ...

539 Commits