biondizzle/vllm - vllm - Gitea: Git with a cup of tea

Author	SHA1	Message	Date
Vensen	6ea001cfb7	[Bugfix][Quantization] Ensure input contiguity in per_token_quant_int8 (#31637 ) Signed-off-by: vensen <vensenmu@gmail.com>	2026-01-10 12:40:02 -08:00
gnovack	d1fd802fa3	fused_moe_kernel - cast accumulator after applying router weights (#32002 ) Signed-off-by: gnovack <gnovack@amazon.com>	2026-01-11 04:36:45 +08:00
Michael Goin	e6c6f2c79d	[Quant] Support MXFP4 W4A16 for compressed-tensors dense models (#31926 ) Signed-off-by: mgoin <mgoin64@gmail.com> Signed-off-by: Michael Goin <mgoin64@gmail.com>	2026-01-10 06:44:35 -08:00
Cyrus Leung	583a90e005	[Refactor] Separate sequence and token pooling types (#32026 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2026-01-10 04:53:24 +00:00
maang	52d428295d	[Core] Refactor ColumnParallelLinear: remove unused parameter and optimize forward (#31939 ) Signed-off-by: maang <maang_h@163.com>	2026-01-10 04:19:49 +00:00
Lucas Kabela	ea6d067a2a	[Misc][LLaMa4] Compile LLaMa Vision Encoder (#30709 ) Signed-off-by: Lucas Kabela <lucaskabela@meta.com>	2026-01-09 22:01:38 -05:00
Matthew Bonanni	2612ba9285	[1/N][Attention] Restructure attention: move files (#31916 ) Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>	2026-01-09 13:10:24 -08:00
Lucas Wilkinson	0a0aa07747	[Quant] Make static quant support all group shapes (#30833 ) Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com>	2026-01-09 12:49:27 -08:00
jiahanc	f9e2a75a1e	[fix] add cutedsl to global sf (#32001 ) Signed-off-by: jiahanc <173873397+jiahanc@users.noreply.github.com>	2026-01-09 12:03:02 -08:00
Runkai Tao	a4d5d663e2	Add unpermute-aware fused MoE path and small-batch fallback (#29354 ) Signed-off-by: Runkai Tao <rt572@physics.rutgers.edu> Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>	2026-01-09 12:58:39 -07:00
Wentao Ye	308feab33f	[Perf] Optimize cutlass moe problem size calculation, 5.3% E2E Throughput improvement, 2.2% TTFT improvement (#31830 ) Signed-off-by: yewentao256 <zhyanwentao@126.com> Signed-off-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com> Co-authored-by: Luka Govedič <ProExpertProg@users.noreply.github.com>	2026-01-09 11:13:43 -08:00
Michael Goin	d5ec6c056f	[UX] Add vLLM model inspection view (#29450 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2026-01-09 10:12:35 -07:00
Shanshan Shen	08d954f036	[Doc] Add developer guide for CustomOp (#30886 ) Signed-off-by: shen-shanshan <467638484@qq.com>	2026-01-09 16:21:11 +00:00
Michael Goin	34cd32fe30	[Perf][Kernel] Fused SiLU+Mul+Quant kernel for NVFP4 cutlass_moe (#31832 ) Signed-off-by: mgoin <mgoin64@gmail.com> Signed-off-by: Michael Goin <mgoin64@gmail.com>	2026-01-09 07:40:33 -07:00
Xin Yang	e7b68f4d6c	[Bugfix] Fix Triton FusedMoE LoRA (#30585 ) Signed-off-by: Xin Yang <xyangx@amazon.com>	2026-01-09 11:46:59 +00:00
Cyrus Leung	c8ed39b9dd	[Model] Reorganize pooling layers (#31973 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2026-01-09 11:02:14 +00:00
Robert Shaw	0fa8dd24d2	[Bugfix] Fix Typo from NVFP4 Refactor (#31977 ) Signed-off-by: Robert Shaw <robshaw@redhat.com> Co-authored-by: Robert Shaw <robshaw@redhat.com>	2026-01-08 16:18:50 -08:00
Robert Shaw	5825bbc1f7	[Quantization] Deprecate Long Tail of Schemes (#31688 ) Signed-off-by: Robert Shaw <robshaw@redhat.com> Signed-off-by: Robert Shaw <114415538+robertgshaw2-redhat@users.noreply.github.com> Co-authored-by: Robert Shaw <robshaw@redhat.com> Co-authored-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com>	2026-01-08 19:07:45 -05:00
Yongye Zhu	d62cfe546d	[MoE Refactoring][Bugfix]Wrap WNA16 Triton kernel into mk and change compressed tensor kernel selection (#31752 ) Signed-off-by: Robert Shaw <robshaw@redhat.com> Signed-off-by: Yongye Zhu <zyy1102000@gmail.com> Co-authored-by: Robert Shaw <robshaw@redhat.com>	2026-01-08 19:01:30 -05:00
Lucas Wilkinson	6cdf015c3c	[Misc] Fix `Current vLLM config is not set.` warnings, assert to avoid issues in the future (#31747 ) Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com> Signed-off-by: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com> Co-authored-by: Luka Govedič <ProExpertProg@users.noreply.github.com>	2026-01-08 15:20:49 -08:00
Dipika Sikka	5d3b6097ad	[Compressed-Tensors] Simplify NVFP4 Conditions, enable marlin support for NVFP4A16 MoEs (#30881 )	2026-01-08 17:45:17 -05:00
bnellnm	e74698c27a	[Misc][Refactor] Add FusedMoERouter object (#30519 ) Signed-off-by: Bill Nell <bnell@redhat.com>	2026-01-08 20:52:55 +00:00
Michael Goin	87e07a6b46	Revert "feat(moe): Add is_act_and_mul=False support for Triton MoE kernels" (#31978 )	2026-01-08 11:31:53 -08:00
danisereb	b8112c1d85	[Bugfix] Fix vllm serve failure with Nemotron Nano V3 FP8 (#31960 ) Signed-off-by: Daniel Serebrenik <daserebrenik@nvidia.com>	2026-01-08 16:08:37 +00:00
Cyrus Leung	d1b6fe007f	[Chore] Further cleanup pooler (#31951 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2026-01-08 02:16:21 -08:00
Andreas Karatzas	c4041f37a4	[ROCm][LoRA] Fix MoE accuracy regression by preserving float32 router weight scaling (#31931 ) Signed-off-by: Andreas Karatzas <akaratza@amd.com>	2026-01-08 04:17:56 +00:00
Robert Shaw	9f6dcb71ae	[MoE Refactor][16/N] Apply Refactor to NVFP4 (#31692 ) Signed-off-by: Robert Shaw <robshaw@redhat.com> Signed-off-by: Robert Shaw <114415538+robertgshaw2-redhat@users.noreply.github.com> Co-authored-by: Robert Shaw <robshaw@redhat.com> Co-authored-by: Michael Goin <mgoin64@gmail.com> Co-authored-by: Pavani Majety <pmajety@nvidia.com>	2026-01-08 03:46:27 +00:00
Rabi Mishra	25eef3dc2e	feat(moe): Add is_act_and_mul=False support for Triton MoE kernels (#31645 ) Signed-off-by: rabi <ramishra@redhat.com>	2026-01-08 10:27:09 +08:00
Robert Shaw	5dcd7ef1f2	[MoE Refactor][15/N] Apply Refactor to Fp8 (#31415 )	2026-01-07 19:42:33 -05:00
Elvir Crnčević	ffc0a2798b	Add back missing DeepEP LL params (#31911 ) Signed-off-by: Elvir Crncevic <elvircrn@gmail.com>	2026-01-07 17:47:54 -05:00
Xin Yang	0ada960a20	[Kernel] Support bias type in grouped_topk kernel (#31781 ) Signed-off-by: Xin Yang <xyangx@amazon.com> Co-authored-by: Michael Goin <mgoin64@gmail.com>	2026-01-07 12:16:32 -08:00
Cyrus Leung	b7036c87a1	[Refactor] Clean up pooler modules (#31897 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2026-01-08 00:07:43 +08:00
Kate Cheng	cc6dafaef2	[Perf][Kernels] Enable FlashInfer DeepGEMM swapAB on SM90 (for W8A8 Linear Op) (#29213 ) Signed-off-by: Kate Cheng <yunhsuanc@nvidia.com> Signed-off-by: Jhao-Ting Chen <jhaotingc@nvidia.com> Co-authored-by: Jhao-Ting Chen <jhaotingc@nvidia.com>	2026-01-07 10:53:54 -05:00
Cyrus Leung	b665bbc2d4	[Chore] Migrate V0 attention utils (#31891 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2026-01-07 13:44:36 +00:00
BlankR	0790f07695	[Misc] Improve error messages for unsupported types and parameters (#30593 ) Signed-off-by: BlankR <hjyblanche@gmail.com> Co-authored-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com>	2026-01-07 09:00:16 +00:00
weiyu	e7596371a4	[Refactor][TPU] Remove torch_xla path and use tpu-inference (#30808 ) Signed-off-by: Wei-Yu Lin <weiyulin@google.com> Signed-off-by: weiyu <62784299+weiyu0824@users.noreply.github.com>	2026-01-07 16:07:16 +08:00
xuebwang-amd	0dd5dee9b9	[Bugfix][Kernel] fix bias adding in triton kernel implemented fused moe (#31676 ) Signed-off-by: xuebwang-amd <xuebwang@amd.com>	2026-01-07 07:36:13 +00:00
Kevin McKay	4614c5a539	[Bugfix][Hardware][AMD] Consolidate FP8 min/max values helper function (#31106 ) Signed-off-by: c0de128 <kevin.mckay@outlook.com> Signed-off-by: Kevin McKay <kevin@example.com> Co-authored-by: Claude Sonnet 4.5 <noreply@anthropic.com>	2026-01-07 06:55:03 +00:00
ℍ𝕠𝕝𝕝𝕠𝕨 𝕄𝕒𝕟	482914849c	[BugFix] LoRA: Support loading base_layer of experts (#31104 ) Signed-off-by: Hollow Man <hollowman@opensuse.org>	2026-01-07 14:49:39 +08:00
Jack Yang	0a2c2dc3f1	fixed mypy warnings for files vllm/v1/attention with TEMPORARY workaround (#31465 ) Signed-off-by: Zhuohao Yang <zy242@cornell.edu> Co-authored-by: Zhuohao Yang <zy242@cornell.edu> Co-authored-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com>	2026-01-07 04:08:47 +00:00
Li, Jiang	8becf146bd	[Quantization][Refactor] Move CPU GPTQ kernel into MP linear (#31801 ) Signed-off-by: jiang1.li <jiang1.li@intel.com> Signed-off-by: Li, Jiang <bigpyj64@gmail.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>	2026-01-06 19:10:18 +00:00
Yakine Tahtah	4e67a8f616	[Bugfix] Fix GLM-4 MoE router logits dtype for data parallel chunking (#31055 ) Signed-off-by: ReinforcedKnowledge <reinforced.knowledge@gmail.com>	2026-01-06 17:57:56 +00:00
Vadim Gimpelson	22dffca982	[PERF] Speed-up of GDN attention decode part (Qwen3-Next) (#31722 ) Signed-off-by: Vadim Gimpelson <vadim.gimpelson@gmail.com>	2026-01-06 17:32:46 +00:00
Jinzhen Lin	2f4bdee61e	[Quantization][MoE] remove unused ep logic from moe marlin (#31571 ) Signed-off-by: Jinzhen Lin <jinzhen.ljz@antgroup.com> Co-authored-by: Michael Goin <mgoin64@gmail.com>	2026-01-06 09:07:19 -08:00
Robert Shaw	af8fd73051	[MoE Refactor][14/N] Clean Up FI Quant Config Smuggling (#31593 ) Signed-off-by: Robert Shaw <robshaw@redhat.com> Co-authored-by: Robert Shaw <robshaw@redhat.com>	2026-01-06 15:47:04 +00:00
kzwrime	bf0f3a4638	[Bugfix] Fix torch.compile error for DP + MoE on CPU Backend (#31650 ) Signed-off-by: kunzh <zhikun.wu@outlook.com>	2026-01-06 12:06:20 +00:00
Wentao Ye	ffec815422	[Perf] Optimize additional `fill(0)` in cutlass moe, 2.9% E2E throughput improvement, 10.8% TTFT improvement (#31754 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2026-01-05 18:01:13 -08:00
maang	d386ab1412	[Docs] Improve malformed exception caused by backslash line continuations (#31694 ) Signed-off-by: maang <maang_h@163.com> Signed-off-by: maang <55082429+maang-h@users.noreply.github.com> Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com> Co-authored-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com>	2026-01-05 17:51:54 -08:00
Robert Shaw	f6c0009afa	[Bugfix] Fix Broken ModelOpt NVFP4 MoE (#31742 ) Signed-off-by: Robert Shaw <robshaw@redhat.com> Co-authored-by: Robert Shaw <robshaw@redhat.com>	2026-01-05 23:18:38 +00:00
Yongye Zhu	776ca1e187	[MoE Refactor] Aiter Experts for BF16 MoE (#31542 ) Signed-off-by: Yongye Zhu <zyy1102000@gmail.com> Co-authored-by: Robert Shaw <114415538+robertgshaw2-redhat@users.noreply.github.com>	2026-01-05 14:52:59 -08:00

1 2 3 4 5 ...

1705 Commits