biondizzle/vllm - vllm - Gitea: Git with a cup of tea

Author	SHA1	Message	Date
Charles Ashby	cbd361fd46	[CPU][Distributed] Fix Enable _CPUSHMDistributed only when TP/PP ranks share the same SHM group name (#34169 ) Signed-off-by: Charles Ashby <charlesa.l@hotmail.com>	2026-03-02 09:34:35 +00:00
Nicolò Lucchesi	c212202d93	[Misc] Bound NIXL upper bound version (#35495 ) Signed-off-by: NickLucche <nlucches@redhat.com>	2026-03-02 16:57:07 +08:00
Andreas Karatzas	ec27b36b4b	[CI] Defining extended V1 e2e + engine tests (#35580 ) Signed-off-by: Andreas Karatzas <akaratza@amd.com>	2026-03-02 08:10:54 +00:00
Charlie Fu	3fd1d4ec2c	[Rocm][CI] Fix LM Eval Large Models (H100) test group (#34750 ) Signed-off-by: charlifu <charlifu@amd.com>	2026-03-02 07:43:38 +00:00
EdalatiAli	cb21972a97	[Kernel] Integrate SM100 MXFP8 blockscaled grouped MM and quant kernels (#34448 ) Signed-off-by: EdalatiAli <aliedalati@cohere.com> Signed-off-by: Michael Goin <mgoin64@gmail.com> Co-authored-by: Michael Goin <mgoin64@gmail.com>	2026-03-01 23:31:19 -08:00
Andreas Karatzas	c34963f138	[ROCm][CI] Disable skinny GEMMs in language model standard tests to fix non-determinism (#35152 ) Signed-off-by: Andreas Karatzas <akaratza@amd.com>	2026-03-02 15:04:18 +08:00
Hongxia Yang	f26650d649	[ROCm] add amd-quark package in requirements for rocm to use quantized models (#35658 ) Signed-off-by: Hongxia Yang <hongxiay.yang@amd.com> Co-authored-by: Hongxia Yang <hongxiay.yang@amd.com>	2026-03-02 06:02:43 +00:00
Kunshang Ji	92f5d0f070	[XPU] fix mxfp4 activation type (#35691 ) Signed-off-by: Kunshang Ji <kunshang.ji@intel.com>	2026-03-02 11:48:39 +08:00
Jesse Cai	a60985b07e	Fix deprecated v1 config tests (#35327 ) Signed-off-by: Jesse Cai <jessecai@fb.com>	2026-03-01 20:32:03 -05:00
Lucas Wilkinson	8b5014d3dd	[Attention] FA4 integration (#32974 ) Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com> Signed-off-by: Matthew Bonanni <mbonanni@redhat.com> Signed-off-by: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com> Co-authored-by: Matthew Bonanni <mbonanni@redhat.com> Co-authored-by: Tyler Michael Smith <tyler@neuralmagic.com>	2026-03-01 23:44:57 +00:00
zhanqiuhu	57a96e26c9	Revert "[Bugfix] Disable TRTLLM attention with KV transfer enabled (#33192 )" (#34832 ) Signed-off-by: Zhanqiu Hu <zh338@cornell.edu>	2026-03-01 22:32:37 +00:00
Richard Zou	e82fbeec7b	[torch.compile] Undo the fast_moe_cold_start hack in torch>=2.11 (#35475 ) Signed-off-by: Richard Zou <zou3519@gmail.com>	2026-03-01 21:44:22 +00:00
haosdent	6290470843	[Bugfix] Fix dtype mismatch in RMSNormGated.forward_native() during torch.compile (#35256 ) Signed-off-by: haosdent <haosdent@gmail.com>	2026-03-01 15:14:46 -05:00
Woosuk Kwon	72f4d16262	[Model Runner V2] Use block table apis for capture inputs (#35671 ) Signed-off-by: Woosuk Kwon <woosuk@inferact.ai>	2026-03-01 10:31:13 -08:00
Seungho Yoon	5a435507d8	fix(mxfp4): return is_monolithic=False when LoRA is enabled for Triton backend (#35382 ) Signed-off-by: Seungho Yoon <yoonsnowdev@gmail.com>	2026-03-01 09:59:30 -05:00
Taneem Ibrahim	59d7af9c6c	[MISC] Fixing a null reference by removing parallel_utils from mypy EXCLUDE (#35630 ) Signed-off-by: Taneem Ibrahim <taneem.ibrahim@gmail.com>	2026-03-01 09:26:44 -05:00
Asaf Gardin	bbf81f9a92	[Mamba1] - Kernel Level Chunk Alignment for Prefix Caching (#34798 ) Signed-off-by: Josephasafg <ajgard7@gmail.com>	2026-03-01 20:40:23 +08:00
Woosuk Kwon	da543d1abe	[Model Runner V2] Minor refactoring for EncoderRunner (#35628 ) Signed-off-by: Woosuk Kwon <woosuk@inferact.ai>	2026-03-01 00:15:39 -08:00
Ryan Rock	87d319c52f	[AMD][CI] Support Triton attention with ExampleConnector (#34931 ) Signed-off-by: Ryan Rock <ryan.rock@amd.com>	2026-03-01 09:58:07 +02:00
lin-shh	a9ec392c86	Fix typo: implictly -> implicitly in isaac.py docstring (#35646 )	2026-02-28 23:34:37 -08:00
lailoo	afd089f231	[Bugfix][Model] Fix Qwen3.5/Qwen3Next ignoring --dtype flag on older GPUs (#35617 )	2026-03-01 03:27:37 +00:00
gnovack	3ecd0bf9fc	Add TMA support to fused_moe_lora kernel (#32195 ) Signed-off-by: gnovack <gnovack@amazon.com> Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>	2026-03-01 10:55:25 +08:00
Woosuk Kwon	e3eb146f7a	[Model Runner V2] Add ModelStateInterface [4/N] (#35621 ) Signed-off-by: Woosuk Kwon <woosuk@inferact.ai>	2026-02-28 13:19:45 -08:00
Martin Vit	95a395dbec	[Bugfix] Fix Anthropic API base64 image handling in Messages endpoint (#35557 ) Signed-off-by: Martin Vit <martin@voipmonitor.org>	2026-02-28 20:57:08 +00:00
Isotr0py	e94b263bd6	[Chore] Cleanup BNB utilization dead code (#35620 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2026-02-28 19:22:41 +00:00
Wentao Ye	e113a30113	[Deprecation] Deprecate code in 0.17 as scheduled (#35441 ) Signed-off-by: yewentao256 <zhyanwentao@126.com> Signed-off-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>	2026-02-28 17:32:37 +00:00
Cyrus Leung	1dafb29f91	[Benchmark] Avoid unnecessary video download in MMVU (#35618 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2026-02-28 09:07:02 -08:00
emricksini-h	49b9ae32e9	[Fix] Avoid sending image input to other PP ranks (#35405 ) Signed-off-by: emricksini-h <emrick.birivoutin@hcompany.ai> Co-authored-by: Roger Wang <hey@rogerw.io>	2026-03-01 00:14:29 +08:00
cwazai	63d7972f13	Fix Qwen3_5MTP packed_modules_mapping for gate_up_proj (#35581 )	2026-02-28 14:50:55 +00:00
flutist	c68e69f144	custom dataset img support base64 (#35280 ) Signed-off-by: xjx <493337577@qq.com>	2026-02-28 11:49:52 +00:00
Chauncey	7e08c22b8c	[Feat] Add CUDA torch fallbacks for fp8_mqa_logits/fp8_paged_mqa_logits_torch function (#35271 ) Signed-off-by: chaunceyjiang <chaunceyjiang@gmail.com>	2026-02-28 10:12:00 +00:00
Augusto Yao	8e75d88554	add io_process_plugin for sparse embedding (#34214 ) Signed-off-by: augusto.yjh <augusto.yjh@antgroup.com> Signed-off-by: Augusto Yao <augusto.yjh@antgroup.com> Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com>	2026-02-28 09:16:37 +00:00
Mario Hong	0892d1ab1f	[Feature]Supports Anthropic Thinking Block (#33671 ) Signed-off-by: mariohong <mariohong128@gmail.com> Co-authored-by: zetaohong <i-hongzetao@stepfun.com> Co-authored-by: Chauncey <chaunceyjiang@gmail.com>	2026-02-28 09:02:33 +00:00
Hashem Hashemi	7600642eae	Add padding support to wvSplitK solution for skinny GEMMs (#33762 ) Signed-off-by: Hashem Hashemi <hashem.hashemi@amd.com>	2026-02-28 09:02:05 +00:00
Andreas Karatzas	1e69c04887	[ROCm][CI] Parametrize vision score tests across attention backends with per-backend tolerances (#35571 ) Signed-off-by: Andreas Karatzas <akaratza@amd.com>	2026-02-28 08:59:26 +00:00
Cyrus Leung	4292e3b807	[Benchmark] Improve UX of sweep scripts (#35600 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2026-02-28 00:36:02 -08:00
Cyrus Leung	24d6ea8afd	[Benchmark] Rename SLA Finder to Workload Explorer (#35586 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2026-02-27 23:31:55 -08:00
Chauncey	57c86c0741	[Misc] Change logging level from info to debug for tool parser import (#35575 ) Signed-off-by: chaunceyjiang <chaunceyjiang@gmail.com>	2026-02-28 14:51:35 +08:00
Chauncey	06254d4cbb	[CI] add trainer_send_weights for MockWeightTransferEngine (#35589 ) Signed-off-by: chaunceyjiang <chaunceyjiang@gmail.com>	2026-02-28 06:47:43 +00:00
Andreas Karatzas	f5d1281c9d	[ROCm][CI] Expose tests to AMD production CI and fix amdsmi heap corruption (#35071 ) Signed-off-by: Andreas Karatzas <akaratza@amd.com>	2026-02-28 13:57:31 +08:00
Andreas Karatzas	94029ffaf0	[ROCm] Derive device capability from GCN arch string without CUDA init (#35069 ) Signed-off-by: Andreas Karatzas <akaratza@amd.com>	2026-02-28 13:55:28 +08:00
Andreas Karatzas	88e8525f2e	[ROCm][CI] Adding infiniband mappings for moriio tests (#35170 ) Signed-off-by: Andreas Karatzas <akaratza@amd.com>	2026-02-28 13:53:28 +08:00
Ilya Markov	b2d8b422b2	[EPLB] Enforce sync eplb for NCCL-based all2all backend (#35212 ) Signed-off-by: ilmarkov <markovilya197@gmail.com>	2026-02-28 05:47:12 +00:00
Umut Polat	1d5ab5d603	[Bugfix] Move chat completion response_format validation to Pydantic model_validator (#35510 ) Signed-off-by: umut-polat <52835619+umut-polat@users.noreply.github.com>	2026-02-27 21:26:19 -08:00
Huy Do	7b346ba8ed	[Bugfix] Propagate compilation_time from workers to main process for TP>1 (#35503 ) Signed-off-by: Huy Do <huydhn@gmail.com>	2026-02-28 05:03:22 +00:00
Itay Alroy	dea268336f	[1/N] Elastic EP Milestone 2 (#34861 ) Signed-off-by: Yongji Wu <wuyongji317@gmail.com> Signed-off-by: Itay Alroy <ialroy@nvidia.com> Signed-off-by: Tyler Michael Smith <tlrmchlsmth@gmail.com> Signed-off-by: Ron Tourgeman <rtourgeman@nvidia.com> Co-authored-by: Yongji Wu <wuyongji317@gmail.com> Co-authored-by: Tyler Michael Smith <tlrmchlsmth@gmail.com> Co-authored-by: Ron Tourgeman <rtourgeman@nvidia.com>	2026-02-28 04:46:42 +00:00
Ma Jian	90805ff464	[CI/Build] CPU release supports both of AVX2 and AVX512 (#35466 ) Signed-off-by: jiang1.li <jiang1.li@intel.com> Co-authored-by: jiang1.li <jiang1.li@intel.com>	2026-02-28 04:35:21 +00:00
Matthew Bonanni	2562e0271e	[MTP] Validate that MTP weights are actually loaded (#35548 ) Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>	2026-02-28 12:27:40 +08:00
Cyrus Leung	fd68cd132b	[Bugfix] Fixes for SLA finder (#35537 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2026-02-27 20:20:55 -08:00
Micah Williamson	0edf101d2b	[ROCm] Add `stablelm` Head Size 80 To Supported Head Sizes For ROCM_ATTN (#35527 ) Signed-off-by: Micah Williamson <micah.williamson@amd.com>	2026-02-28 12:16:34 +08:00

1 2 3 4 5 ...

14367 Commits