biondizzle/vllm - vllm - Gitea: Git with a cup of tea

Author	SHA1	Message	Date
xuebwang-amd	f451b4558b	[Quantization][ROCm] Fix MoE weight loading to be robust (Qwen3_MoE/Qwen3_next as example models) (#33173 ) Signed-off-by: xuebwang-amd <xuebwang@amd.com>	2026-01-30 17:50:23 +00:00
Michael Goin	fd0e377244	Support FP8 block quant for CompressedTensorsW8A16Fp8 (#33280 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2026-01-30 11:15:20 -05:00
Frank Wang	8f5d51203b	Disable Cascade Attention for Batch Invariance (#32561 ) Signed-off-by: frankwang28 <frank.wbb@hotmail.com> Signed-off-by: Frank Wang <41319051+frankwang28@users.noreply.github.com> Co-authored-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com>	2026-01-30 10:00:46 -05:00
杨朱 · Kiki	1a7894dbdf	[Misc] Replace Optional[X] with X \| None syntax (#33332 ) Signed-off-by: carlory <baofa.fan@daocloud.io> Co-authored-by: Claude Opus 4.5 <noreply@anthropic.com>	2026-01-30 01:56:59 -08:00
hujiaxin0	ba45bedfd1	[model] Add support for openPangu7B-VL (#32449 ) Signed-off-by: hujiaxin <524446785@qq.com> Signed-off-by: Emilie1001 <79921183+Emilie1001@users.noreply.github.com> Co-authored-by: Emilie1001 <79921183+Emilie1001@users.noreply.github.com>	2026-01-30 15:54:27 +08:00
Michael Goin	bfb9bdaf3f	[Bugfix] Enable Triton MoE for FP8 per-tensor dynamic (#33300 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2026-01-29 12:15:17 -08:00
danisereb	8e2a469b3b	Add Triton fused MoE config for B200 (Nemotron Nano) (#32804 )	2026-01-29 19:21:33 +00:00
CarstyYou	23591e631e	[Bugfix][Kernel] Fix negative memory offset in GDN Triton kernel (#33326 ) Signed-off-by: CarstyYou <186021327+CarstyYou@users.noreply.github.com>	2026-01-29 10:40:11 -08:00
Linda	0493d897c4	[NVIDIA] [feat] Integrate flashinfer Trtllmgen bf16 moe (#32954 ) Signed-off-by: Linda-Stadter <57756729+Linda-Stadter@users.noreply.github.com>	2026-01-29 10:00:13 -08:00
zofia	a5aa4d5c0f	[Quantization][Refactor] use platform dict to choose kernel (#33130 ) Signed-off-by: Zhu, Zufang <zufang.zhu@intel.com> Signed-off-by: zofia <110436990+zufangzhu@users.noreply.github.com>	2026-01-29 10:44:58 +00:00
whx	08b1195e62	[PluggableLayer][2/N] Apply PluggableLayer to linear layers (#33152 ) Signed-off-by: whx-sjtu <2952154980@qq.com>	2026-01-29 16:53:15 +08:00
Didier Durand	31b25f6516	[Doc]: fixing multiple typos in diverse files (#33256 ) Signed-off-by: Didier Durand <durand.didier@gmail.com> Signed-off-by: Didier Durand <2927957+didier-durand@users.noreply.github.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>	2026-01-29 16:52:03 +08:00
Angela Yi	07ea184f00	[ez] Delete more torch version checks <= 2.8 (#33288 ) Signed-off-by: angelayi <yiangela7@gmail.com>	2026-01-29 05:28:46 +00:00
Michael Goin	141cd43967	[UX] Remove noisy CT UnquantizedLinearMethod warn (#33273 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2026-01-28 16:09:30 -08:00
Angela Yi	4197168ea5	[ez] Remove checks for torch version <= 2.8 (#33209 ) Signed-off-by: angelayi <yiangela7@gmail.com>	2026-01-28 16:03:56 -05:00
Rohan Potdar	59bcc5b6f2	Use aiter triton fused_add_rmsnorm_pad for gpt-oss (#30976 ) Signed-off-by: Rohan138 <rohanpotdar138@gmail.com>	2026-01-28 20:47:47 +00:00
Robert Shaw	af9b69f977	[Quantization][Deprecation] Remove Marlin 24 (#32688 ) Signed-off-by: Robert Shaw <robshaw@redhat.com> Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com> Co-authored-by: Robert Shaw <robshaw@redhat.com> Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2026-01-28 15:54:59 +00:00
Robert Shaw	247d1a32ea	[Quantization][Deprecation] Remove BitBlas (#32683 ) Signed-off-by: Robert Shaw <robshaw@redhat.com> Signed-off-by: Robert Shaw <114415538+robertgshaw2-redhat@users.noreply.github.com> Co-authored-by: Robert Shaw <robshaw@redhat.com>	2026-01-28 11:06:22 +00:00
Harry Mellor	f1acbd68c5	[CI] Enable mypy import following for `vllm/compilation` (#33199 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2026-01-28 08:59:54 +00:00
Harry Mellor	2eb673a088	Add flake8-implicit-str-concat rules to Ruff (#33191 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2026-01-28 04:56:10 +00:00
Richard Zou	d9aa39a3bb	[torch.compile] Speed up MOE handling in forward_context (#33184 ) Signed-off-by: Richard Zou <zou3519@gmail.com>	2026-01-27 15:17:54 -08:00
Matthew Bonanni	1cbccb6dba	[Attention] Use `has_flashinfer` helper (#33177 ) Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>	2026-01-27 18:33:17 +00:00
IriKa	66e601ef79	Support compress-tensors with nvfp4 or fp8 weights and modelopt with nvfp4 weights on Turing (#33076 ) Signed-off-by: IriKa Qiu <qiujie.jq@gmail.com>	2026-01-27 11:04:05 -05:00
Matthew Bonanni	a608b4c6c2	[5/N][Attention] Finish eliminating `vllm/attention` folder (#32064 ) Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>	2026-01-27 10:02:51 -05:00
Lifan Shen	da8d0c441a	[AMD][QWEN3-NEXT] FP8 Tunings (#32042 ) Signed-off-by: Lifan Shen <lifans@meta.com>	2026-01-27 09:34:13 +00:00
Robert Shaw	5a93b9162b	[MoE Refactor] Integrate Naive Prepare Finalize into MK (#32567 ) Signed-off-by: Robert Shaw <robshaw@redhat.com> Signed-off-by: Amir Klein <203507526+amirkl94@users.noreply.github.com> Co-authored-by: Robert Shaw <robshaw@redhat.com> Co-authored-by: amirkl94 <203507526+amirkl94@users.noreply.github.com>	2026-01-27 01:28:02 +00:00
XiongfeiWei	510ed1e8d3	[Bugfix][TPU] Return a Default fp8 MoE Backend (#32908 ) Signed-off-by: Xiongfei Wei <isaacwxf23@gmail.com> Signed-off-by: Robert Shaw <robshaw@redhat.com> Co-authored-by: Robert Shaw <robshaw@redhat.com> Co-authored-by: Robert Shaw <114415538+robertgshaw2-redhat@users.noreply.github.com>	2026-01-26 18:46:11 -05:00
Pengchao Wang	8caffd92df	[Bugfix][MXFP4] Call `trtllm_fp4_block_scale_moe` with kwargs (#33104 ) Signed-off-by: Pengchao Wang <wpc@fb.com>	2026-01-26 15:13:18 -08:00
Wentao Ye	8f987883cb	[Refactor] Remove unused `_moe_permute` function (#33108 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2026-01-26 16:06:45 -05:00
Robert Shaw	43a013c3a2	[Bugfix] Fix Dtypes for Pynccl Wrapper (#33030 ) Signed-off-by: Robert Shaw <robshaw@redhat.com> Co-authored-by: Robert Shaw <robshaw@redhat.com>	2026-01-26 20:09:32 +00:00
danielafrimi	67fe677c53	[FIX] Always support TP > 4 for FP4 Gemm (#31099 ) Signed-off-by: dafrimi <dafrimi@nvidia.com> Co-authored-by: root <root@gpu-51.slurm-workers-slurm.slurm.svc.cluster.local>	2026-01-26 11:04:20 -07:00
danisereb	f4a0921c9c	[Performance] Tune Mamba selective scan kernel for B200 (#32873 ) Signed-off-by: Daniel Serebrenik <daserebrenik@nvidia.com> Co-authored-by: Robert Shaw <114415538+robertgshaw2-redhat@users.noreply.github.com>	2026-01-26 05:56:54 -08:00
Roberto L. Castro	fcb9df99bd	[Perf][Kernel] Optimize FP4 quantization kernels (SM100F) (#32520 ) Signed-off-by: LopezCastroRoberto <rocastro@redhat.com>	2026-01-24 18:45:27 -07:00
Lucas Wilkinson	da5e7b12be	[MLA] Fuse cat and qaunt for fp8 kv-cache (#32950 ) Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com>	2026-01-24 16:03:02 +00:00
Isotr0py	9ad7f89f55	[Models]: Make Multimodal config implicit in ViT implementation (#31972 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2026-01-24 20:34:26 +08:00
ElizaWszola	a28b94e6ef	[Performance] Split FlashAttn attention and cache update (#25954 ) Signed-off-by: ElizaWszola <ewszola@redhat.com> Signed-off-by: mgoin <mgoin64@gmail.com> Signed-off-by: Matthew Bonanni <mbonanni@redhat.com> Signed-off-by: Luka Govedič <luka.govedic@gmail.com> Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com> Signed-off-by: Luka Govedič <ProExpertProg@users.noreply.github.com> Signed-off-by: Luka Govedič <lgovedic@redhat.com> Co-authored-by: mgoin <mgoin64@gmail.com> Co-authored-by: Varun Sundar Rabindranath <varunsundar08@gmail.com> Co-authored-by: Matthew Bonanni <mbonanni@redhat.com> Co-authored-by: Luka Govedič <ProExpertProg@users.noreply.github.com> Co-authored-by: Luka Govedič <luka.govedic@gmail.com> Co-authored-by: Lucas Wilkinson <lwilkins@redhat.com> Co-authored-by: Luka Govedič <lgovedic@redhat.com>	2026-01-23 17:28:06 -08:00
joninco	ebd0a17e0e	[Bugfix] Fix missing is_layer_skipped check for FusedMoE in AWQConfig (#32935 ) Signed-off-by: jon <joninco@bullpoint.org>	2026-01-23 17:19:56 -05:00
Wentao Ye	37c9859fab	[Refactor] Clean up unused variables & func (#32692 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2026-01-23 17:04:25 -05:00
Michael Goin	4561f13985	[Refactor] Rename `gptq_marlin` to `marlin` to match MoE (#32952 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2026-01-23 16:48:12 -05:00
Markus / Mark	586a57ad7e	fix: Add glm4_moe_lite to MLA detection (#32614 ) Signed-off-by: marksverdhei <marksverdhei@hotmail.com> Signed-off-by: Markus / Mark <46672778+marksverdhei@users.noreply.github.com> Signed-off-by: mgoin <mgoin64@gmail.com> Co-authored-by: Claude Opus 4.5 <noreply@anthropic.com> Co-authored-by: mgoin <mgoin64@gmail.com>	2026-01-23 12:38:57 -08:00
Harry Huang	5206e5e28c	[V1][Hybrid] Mamba Prefix Caching with align mode (#30877 ) Signed-off-by: huanghaoyan.hhy <huanghaoyan.hhy@alibaba-inc.com> Signed-off-by: Chen Zhang <zhangch99@outlook.com> Co-authored-by: Chen Zhang <zhangch99@outlook.com>	2026-01-23 09:56:48 -08:00
Xin Yang	90c2007932	[Bugfix] Disable tma_aligned_scales in test_fusions_e2e (#32916 ) Signed-off-by: Xin Yang <xyangx@amazon.com>	2026-01-23 14:34:30 +00:00
Li, Jiang	5da4c7d789	[CI/Build][CPU] Fix failed pooling tests and macos smoke test (#32907 ) Signed-off-by: jiang1.li <jiang1.li@intel.com> Signed-off-by: Li, Jiang <bigpyj64@gmail.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>	2026-01-23 10:48:20 +00:00
Andreas Karatzas	a8eb1182f1	[CI][Models] Add VLM Support for Sequence Classification Conversion (#32885 ) Signed-off-by: Andreas Karatzas <akaratza@amd.com>	2026-01-23 16:22:51 +08:00
Karan Bansal	fa6e599a61	[Bugfix] Fix _CPU_MOE_ACT AssertionError when vLLM config not set (#32777 ) Signed-off-by: Karan Bansal <karanb192@gmail.com>	2026-01-23 08:22:37 +00:00
Luka Govedič	5e4e0e51f4	[torch.compile] Compile `CustomOp.forward_native` for `SiluAndMul` and `QuantFP8` to avoid raw torch ops inside opaque custom ops (#32806 ) Signed-off-by: Luka Govedič <lgovedic@redhat.com> Signed-off-by: Luka Govedič <ProExpertProg@users.noreply.github.com> Co-authored-by: Michael Goin <mgoin64@gmail.com>	2026-01-22 19:52:26 -08:00
bnellnm	dc917cceb8	[MoE Refactor] Move `select_experts` from `FusedMoEQuantMethod` -> `FusedMoE` (#31996 ) Signed-off-by: Bill Nell <bnell@redhat.com>	2026-01-22 18:21:35 -05:00
Fadi Arafeh	fc56f4a071	[BugFix] Fix invalid flashinfer_fused_moe_blockscale_fp8 op registration (#32855 ) Signed-off-by: Fadi Arafeh <fadi.arafeh@arm.com>	2026-01-22 22:27:40 +00:00
Xin Yang	d08b356ee0	[Perf] Create TMA-aligned input scale tensor for DeepGemm on Hopper (#32619 ) Signed-off-by: Xin Yang <xyangx@amazon.com>	2026-01-22 15:47:04 -05:00
Eldar Kurtić	44f08af3a7	Add llmcompressor fp8 kv-cache quant (per-tensor and per-attn_head) (#30141 ) Signed-off-by: Eldar Kurtic <8884008+eldarkurtic@users.noreply.github.com> Signed-off-by: eldarkurtic <8884008+eldarkurtic@users.noreply.github.com>	2026-01-22 13:29:57 -07:00

1 2 3 4 5 ...

1813 Commits