biondizzle/vllm - vllm - Gitea: Git with a cup of tea

Author	SHA1	Message	Date
wang.yuqi	f4b76056ee	Improve enable chunked_prefill & prefix_caching logic. (#26623 ) Signed-off-by: wang.yuqi <yuqi.wang@daocloud.io> Signed-off-by: wang.yuqi <noooop@126.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>	2025-11-27 22:05:48 -08:00
EanWang211123	37b15e97e8	[Multimodal][Speculative Decoding]Eagle3 mm support, enablement on qwen3vl (#29594 ) Signed-off-by: Tsai, Louie <louie.tsai@intel.com> Signed-off-by: EanWang211123 <wangyiheng@sangfor.com.cn> Co-authored-by: Louie Tsai <louie.tsai@intel.com> Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com>	2025-11-27 22:05:45 -08:00
maang-h	c7ba1f6bc7	[BugFix] Fix ValueError in NewRequestData repr methods (#29392 ) Signed-off-by: maang <maang_h@163.com>	2025-11-28 13:42:30 +08:00
Wilson Wu	18523b87f6	[Docs] Update supported models for Olmo 3 in tool calling documentation (#29411 ) Signed-off-by: Wilson Wu <iwilsonwu@gmail.com>	2025-11-28 02:53:55 +00:00
Xin Yang	745a3bae1a	[LoRA] Support FusedMoE LoRA Triton kernel for mxfp4 (#28971 ) Signed-off-by: Xin Yang <xyangx@amazon.com> Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>	2025-11-28 10:48:28 +08:00
scydas	35657bcd7a	[CPU]Update CPU PyTorch to 2.9.0 (#29589 ) Signed-off-by: scyda <scyda@outlook.com> Co-authored-by: Li, Jiang <jiang1.li@intel.com>	2025-11-28 09:34:33 +08:00
Lucas Wilkinson	be493e0b3c	[BugFix] Fix new nightly failures (#29578 ) Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com>	2025-11-27 13:45:38 -08:00
Woosuk Kwon	ae0ce1be27	[Model Runner V2][BugFix] Keep reference to GPU tensors in AsyncOutput (#29623 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>	2025-11-27 12:38:53 -08:00
Andrii Skliar	a5345bf49d	[BugFix] Fix `plan` API Mismatch when using latest FlashInfer (#29426 ) Signed-off-by: Andrii Skliar <askliar@askliar-mlt.client.nvidia.com> Co-authored-by: Andrii Skliar <askliar@askliar-mlt.client.nvidia.com>	2025-11-27 11:34:59 -08:00
Nicolò Lucchesi	e5a621b724	[CI] Add batched audios Whisper test (#29308 ) Signed-off-by: NickLucche <nlucches@redhat.com>	2025-11-27 19:31:52 +00:00
Isotr0py	38658ec6f3	[Bugfix][MM encoder] Fix ViT attention backend resolving for Turing GPU (#29614 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-11-27 19:17:37 +00:00
Cyrus Leung	a24ea5414b	[Deprecation] Advance deprecation status (#29617 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-11-27 19:04:58 +00:00
Cyrus Leung	ea228b4491	[Misc] Remove unused code from `protocol.py` (#29616 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-11-27 18:39:59 +00:00
果冻虾仁	d45269b378	add skip_reading_prefix_cache in repr for PoolingParams (#29620 )	2025-11-27 09:21:00 -08:00
Cyrus Leung	ee9841daa9	[Bugfix] Fix doc build on main (#29619 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-11-27 09:08:08 -08:00
Injae Ryou	0840abdd24	[BugFix] Optional tokenizer argument when loading GGUF models (#29582 ) Signed-off-by: Injae Ryou <injaeryou@gmail.com> Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com> Co-authored-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-11-27 16:53:10 +00:00
Harry Mellor	e1f262337b	Update Transformers pin in CI to 4.57.3 (#29418 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-11-27 08:42:14 -08:00
Matthew Bonanni	fc1d8be3dc	[Attention] Update attention imports (#29540 ) Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>	2025-11-27 11:19:09 -05:00
Mathis Felardos	cd007a53b4	[bugfix] avoid NIXL_ERR_REMOTE_DISCONNECT in nixl_connector when Prefill dies (#28120 ) Signed-off-by: Mathis Felardos <mathis@mistral.ai>	2025-11-27 15:32:38 +00:00
Didier Durand	66d3d5422c	[Doc]: fixing typos in diverse files (#29492 ) Signed-off-by: Didier Durand <durand.didier@gmail.com>	2025-11-27 07:15:50 -08:00
Ryan Rock	bab438ff3e	[CI/Build] Skip ray tests on ROCm (#29556 ) Signed-off-by: Ryan Rock <ryan.rock@amd.com>	2025-11-27 07:01:37 -08:00
Li, Jiang	882851dc81	[CI/Build][Bugfix] Fix auto label issues for CPU (#29610 ) Signed-off-by: jiang1.li <jiang1.li@intel.com>	2025-11-27 14:51:26 +00:00
Jee Jee Li	2f5f9acd55	[LoRA] Continue optimizing MoE LoRA weight loading (#29322 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-11-27 05:56:28 -08:00
Roger Wang	cf348c8d27	[Bugfix] Fix HunyuanVL XD-RoPE (#29593 ) Signed-off-by: Roger Wang <hey@rogerw.io> Co-authored by: grider-transwithai <grider@transwith.ai>	2025-11-27 12:36:24 +00:00
Li, Jiang	a5abd1d384	[CI] Auto label CPU related issues (#29602 ) Signed-off-by: jiang1.li <jiang1.li@intel.com>	2025-11-27 11:33:19 +00:00
Cyrus Leung	e6d4f3c254	[Bugfix] Fix pre-commit (#29601 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-11-27 02:23:06 -08:00
maang-h	51906c8c55	[Docs] Improve `priority` parameter documentation (#29572 ) Signed-off-by: maang <maang_h@163.com> Signed-off-by: maang-h <55082429+maang-h@users.noreply.github.com> Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com>	2025-11-27 02:09:24 -08:00
Morrison Turnansky	0838b52e2e	[Frontend][torch.compile] CompilationConfig Overhaul (#20283 ): Set up -O infrastructure (#26847 ) Signed-off-by: morrison-turnansky <mturnans@redhat.com> Signed-off-by: adabeyta <aabeyta@redhat.com> Signed-off-by: Morrison Turnansky <mturnans@redhat.com> Co-authored-by: adabeyta <aabeyta@redhat.com> Co-authored-by: Luka Govedič <ProExpertProg@users.noreply.github.com> Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-11-27 01:55:58 -08:00
Cyrus Leung	00d3310d2d	[Bugfix] Update Ultravox compatibility (#29588 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-11-27 01:36:18 -08:00
Woosuk Kwon	da3222f371	[Model Runner V2] Implement multi-step Eagle with CUDA graph (#29559 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>	2025-11-27 00:09:41 -08:00
Micah Williamson	43c5792592	[ROCm][CI] Fix test_cpu_offloading for ROCm (#29548 ) Signed-off-by: Micah Williamson <micah.williamson@amd.com>	2025-11-27 07:54:44 +00:00
Johnny Yang	3ecabd06ee	Fix tpu-inference platform path (#29554 ) Signed-off-by: Johnny Yang <johnnyyang@google.com>	2025-11-26 23:25:21 -08:00
Jee Jee Li	c069086b9c	[Bugfix] Fix getting device for MoE LoRA (#29475 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-11-26 23:16:07 -08:00
Woosuk Kwon	11ea5ec1ff	[Model Runner V2] Refactor CudaGraphManager (#29583 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>	2025-11-26 21:37:59 -08:00
Fadi Arafeh	ecb1952378	[cpu][fix] Fix Arm CI tests (#29552 ) Signed-off-by: Fadi Arafeh <fadi.arafeh@arm.com>	2025-11-27 13:09:41 +08:00
TJian	da8e1a1bf9	[DOC] Add vLLM Bangkok Meetup info (#29561 ) Signed-off-by: tjtanaa <tunjian.tan@embeddedllm.com>	2025-11-27 04:42:50 +00:00
Woosuk Kwon	ee80aee1ca	[Model Runner V2] Minor cleanup for build_attn_metadata (#29576 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>	2025-11-26 20:10:12 -08:00
Woosuk Kwon	0aeb698b77	[Model Runner V2] Minor code cleanup (#29570 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>	2025-11-26 19:47:17 -08:00
Louie Tsai	9bb33c8919	add xpu supported model and model id for cpu (#29380 ) Signed-off-by: Tsai, Louie <louie.tsai@intel.com>	2025-11-27 11:30:50 +08:00
Jinzhen Lin	a67dec7cba	[Bugfix] fix IMA issue in certain cases of the moe marlin kernel (#28619 ) Signed-off-by: Jinzhen Lin <jinzhen.ljz@antgroup.com> Co-authored-by: youkaichao <youkaichao@gmail.com> Co-authored-by: Michael Goin <mgoin64@gmail.com> Co-authored-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com>	2025-11-26 19:02:21 -08:00
Matthew Bonanni	77740191de	[Attention][Async] Eliminate `seq_lens_cpu` in FlashAttention metadata building with DCP > 1 (#29449 ) Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>	2025-11-26 18:48:43 -08:00
HDCharles	df01eda4dc	[Bugfix] Make compressed-tensors MoEs respect ignored layers (#28878 ) Signed-off-by: HDCharles <charlesdavidhernandez@gmail.com>	2025-11-26 21:35:13 -05:00
Johnny Yang	ba1fcd84a7	[TPU] add tpu_inference (#27277 ) Signed-off-by: Johnny Yang <johnnyyang@google.com>	2025-11-26 14:46:36 -08:00
Lucas Wilkinson	56539cddac	[Core] Refactor padding logic and pad for CUDA graphs before attention metadata building (#28579 )	2025-11-26 14:07:13 -05:00
Matthew Bonanni	430dd4d9eb	[Attention] Remove imports from `vllm/attention/__init__.py` (#29342 ) Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>	2025-11-26 10:53:15 -07:00
Alec	c4c0354eec	[CI/Build] allow user modify pplx and deepep ref by ENV or command line (#29131 ) Signed-off-by: alec-flowers <aflowers@nvidia.com>	2025-11-26 17:41:16 +00:00
HDCharles	e603129505	[refactor] CTConfig methods to static/class methods (#28870 ) Signed-off-by: HDCharles <charlesdavidhernandez@gmail.com> Co-authored-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-11-26 17:21:58 +00:00
Wentao Ye	0b0aa874e8	[Perf] Optimize batch invariant BMM, 18.1% Throughput improvement, 10.7% TTFT improvement (#29345 ) Signed-off-by: yewentao256 <zhyanwentao@126.com> Signed-off-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>	2025-11-26 09:38:52 -07:00
Huamin Li	70d5953f82	Revert "[Bugfix] Fix GPT-OSS AR+NORM fusion (#28841 )" (#29483 ) Signed-off-by: Huamin Li <3ericli@gmail.com>	2025-11-26 22:27:26 +08:00
yxt	3650a74ed8	Optimize the wording of the document and unify the terminology and th… (#29491 )	2025-11-26 05:16:12 -08:00

... 52 53 54 55 56 ...

14386 Commits