biondizzle/vllm - vllm - Gitea: Git with a cup of tea

Author	SHA1	Message	Date
Robert Shaw	5dcd7ef1f2	[MoE Refactor][15/N] Apply Refactor to Fp8 (#31415 )	2026-01-07 19:42:33 -05:00
Wentao Ye	ffec815422	[Perf] Optimize additional `fill(0)` in cutlass moe, 2.9% E2E throughput improvement, 10.8% TTFT improvement (#31754 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2026-01-05 18:01:13 -08:00
Robert Shaw	83a317f650	[MoE Refactor][3/N] Deprecate cutlass block quant fp8 (b200) (#30990 ) Signed-off-by: Robert Shaw <robshaw@redhat.com> Co-authored-by: Robert Shaw <robshaw@redhat.com>	2025-12-19 13:09:54 -08:00
Wentao Ye	3778673ea8	[Feat] Refactor for `parallel_config` in `FusedMoEModularKernel` (#30282 ) Signed-off-by: yewentao256 <zhyanwentao@126.com> Signed-off-by: Robert Shaw <robshaw@redhat.com> Co-authored-by: Robert Shaw <robshaw@redhat.com> Co-authored-by: Robert Shaw <114415538+robertgshaw2-redhat@users.noreply.github.com>	2025-12-15 04:21:36 +00:00
czhu-cohere	f6227c22ab	[Kernel]Support W4A8 Grouped GEMM on Hopper (#29691 ) Signed-off-by: czhu-cohere <conway.zhu@cohere.com>	2025-12-08 19:29:06 -08:00
Wentao Ye	7b5575fa7d	[Bug] Fix vLLM config is not set error (#29999 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-12-05 16:42:12 -05:00
Wentao Ye	1c160841ea	[Bug] Fix DeepSeek-V2.5-1210-FP8 issue (#27267 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-10-22 11:00:10 -04:00
Harry Mellor	8fcaaf6a16	Update `Optional[x]` -> `x \| None` and `Union[x, y]` to `x \| y` (#26633 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-10-12 09:51:31 -07:00
bnellnm	da364615fc	[Kernels] Modular kernel refactor (#24812 ) Signed-off-by: Bill Nell <bnell@redhat.com>	2025-10-08 17:51:52 -04:00
Harry Mellor	d6953beb91	Convert formatting to use `ruff` instead of `yapf` + `isort` (#26247 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-10-05 07:06:22 -07:00
Varun Sundar Rabindranath	7ef40bb983	[GPTOSS][DP/EP][Marlin] Enable GPTOSS DP/EP using Marlin kernels (#25488 ) Signed-off-by: Varun Sundar Rabindranath <vsundarr@redhat.com> Co-authored-by: Varun Sundar Rabindranath <vsundarr@redhat.com> Co-authored-by: mgoin <mgoin64@gmail.com>	2025-10-03 20:13:13 -04:00
bnellnm	4bdf400218	[Bugfix] Fix chunked a2_scales in modular kernels (#25264 ) Signed-off-by: Bill Nell <bnell@redhat.com>	2025-09-19 19:42:01 +00:00
bnellnm	5963b98b46	[Kernel] Delegate construction of FusedMoEQuantConfig to FusedMoEMethodBase subclasses (#22537 ) Signed-off-by: Bill Nell <bnell@redhat.com>	2025-09-17 17:43:31 -06:00
shixianc	b17109beea	[Kernel] CUTLASS MoE FP8: Integrate cuda moe permute/unpermute (#23045 ) Signed-off-by: Shixian Cui <shixian@amazon.com>	2025-08-20 10:35:26 -04:00
bnellnm	8ad7285ea2	[Kernels] Clean up FusedMoeMethodBase and modular kernel setup. Remove extra arguments from modular kernel methods. (#22035 ) Signed-off-by: Bill Nell <bnell@redhat.com> Co-authored-by: Michael Goin <mgoin64@gmail.com>	2025-08-15 14:46:00 -04:00
Ming Yang	e7b2042681	Revert "[Performance] Performance improvements in non-blockwise fp8 CUTLASS MoE (#20762 ) (#21334 ) Signed-off-by: Ming Yang <minos.future@gmail.com>	2025-07-21 21:49:01 -07:00
ElizaWszola	4adc66f64d	[Bugfix] Allocate less memory in non-batched CUTLASS MoE (#21121 ) Signed-off-by: ElizaWszola <ewszola@redhat.com>	2025-07-18 18:55:52 +08:00
Shu Wang	c7d8724e78	[Core] FlashInfer CUTLASS fused MoE backend (NVFP4) (#20037 ) Signed-off-by: shuw <shuw@nvidia.com> Signed-off-by: mgoin <mgoin64@gmail.com> Co-authored-by: mgoin <mgoin64@gmail.com>	2025-07-17 21:32:45 -07:00
Wentao Ye	8a8fc94639	[Log] Debugging Log with more Information (#20770 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-07-18 00:19:46 +00:00
ElizaWszola	9fb2d22032	[Performance] Performance improvements in non-blockwise fp8 CUTLASS MoE (#20762 ) Signed-off-by: ElizaWszola <ewszola@redhat.com>	2025-07-17 09:56:44 -04:00
Varun Sundar Rabindranath	11dfdf21bf	[Kernel] DeepGemm MoE : Integrate triton permute / unpermute kernels (#20903 ) Signed-off-by: Varun Sundar Rabindranath <vsundarr@redhat.com> Co-authored-by: Varun Sundar Rabindranath <vsundarr@redhat.com>	2025-07-17 08:10:37 +00:00
Varun Sundar Rabindranath	c0569dbc82	[Misc] ModularKernel : Perform WeightAndReduce inside TritonExperts & DeepGemmExperts (#20725 ) Signed-off-by: Varun Sundar Rabindranath <vsundarr@redhat.com> Co-authored-by: Varun Sundar Rabindranath <vsundarr@redhat.com>	2025-07-14 19:47:16 +00:00
Duncan Moss	5923ab9524	[fix]: disable cutlass block scaled group gemm for EP (#20781 ) Signed-off-by: Duncan Moss <djm.moss@gmail.com>	2025-07-11 02:39:18 +00:00
Varun Sundar Rabindranath	f0c98cae27	[Misc] MoE ModularKernel : Introduce TopKWeightAndReduce (#20648 ) Signed-off-by: Varun Sundar Rabindranath <vsundarr@redhat.com> Co-authored-by: Varun Sundar Rabindranath <vsundarr@redhat.com>	2025-07-10 14:40:38 -07:00
Varun Sundar Rabindranath	805d62ca88	[Misc] DP : Add ExpertTokensMetadata (#20332 ) Signed-off-by: Varun <vsundarr@redhat.com> Signed-off-by: Varun Sundar Rabindranath <vsundarr@redhat.com> Co-authored-by: Varun <vsundarr@redhat.com>	2025-07-10 00:33:14 +00:00
Michael Goin	31b96d1c64	Support Llama 4 for cutlass_moe_fp4 (#20453 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2025-07-09 15:53:38 -04:00
Duncan Moss	97abeb1daa	[feat] enable SM100 CUTLASS block scaled group gemm for smaller batch sizes (#20640 ) Signed-off-by: Duncan Moss <djm.moss@gmail.com>	2025-07-09 11:03:35 +08:00
Ming Yang	afb7cff1b9	[Bugfix] Fix Maverick correctness by filling zero to cache space in cutlass_moe (#20167 ) Signed-off-by: Ming Yang <yming@meta.com>	2025-07-08 01:07:22 +00:00
Lucia Fang	432870829d	[Bugfix] Fix missing per_act_token parameter in compressed_tensors_moe (#20509 ) Signed-off-by: Lu Fang <fanglu@fb.com>	2025-07-06 12:08:30 +08:00
Duncan Moss	3d184b95b8	[feat]: CUTLASS block scaled group gemm for SM100 (#19757 ) Signed-off-by: Duncan Moss <djm.moss@gmail.com> Co-authored-by: Duncan Moss <dmoss@nvidia.com>	2025-07-04 12:58:04 -06:00
bnellnm	78fe77534b	[Kernel] Enable fp8 support for pplx and BatchedTritonExperts. (#18864 ) Signed-off-by: Bill Nell <bnell@redhat.com>	2025-07-03 14:55:40 -07:00
bnellnm	c1909e7e8c	[Kernels] MoE refactor (#19636 ) Signed-off-by: Bill Nell <bnell@redhat.com> Signed-off-by: ElizaWszola <ewszola@redhat.com> Co-authored-by: ElizaWszola <ewszola@redhat.com>	2025-07-02 06:08:27 -07:00
bnellnm	015fab8c2f	[Kernels][Bugfix] Use torch op for all kernels in FusedMoE forward. Add additional testing for cudagraphs. (#19717 ) Signed-off-by: Bill Nell <bnell@redhat.com>	2025-06-24 23:22:58 -07:00
Varun Sundar Rabindranath	e3b12667d4	[BugFix] : Fix Batched DeepGemm Experts (#19515 ) Signed-off-by: Varun Sundar Rabindranath <vsundarr@redhat.com> Co-authored-by: Varun Sundar Rabindranath <vsundarr@redhat.com>	2025-06-12 20:43:02 -06:00
bnellnm	29fa5cac1c	[Kernels] Add activation chunking logic to FusedMoEModularKernel (#19168 ) Signed-off-by: Bill Nell <bnell@redhat.com>	2025-06-11 12:53:10 -04:00
ElizaWszola	84166fee97	[Kernel] Integrate CUTLASS MoE kernel with PPLX (#18762 ) Signed-off-by: ElizaWszola <ewszola@redhat.com> Signed-off-by: Tyler Michael Smith <tyler@neuralmagic.com> Co-authored-by: Tyler Michael Smith <tyler@neuralmagic.com>	2025-06-06 18:26:11 -07:00
Chiyue Wei	61059bee40	[Hardware][NVIDIA] FP4 MoE kernel optimization (#19110 ) Signed-off-by: Chiyue Wei <chiyuew@nvidia.com> Co-authored-by: Chiyue Wei <chiyuew@nvidia.com>	2025-06-05 09:48:26 -07:00
Simon Mo	02f0c7b220	[Misc] Add SPDX-FileCopyrightText (#19100 ) Signed-off-by: simon-mo <simon.mo@hey.com>	2025-06-03 11:20:17 -07:00
Pavani Majety	f2036734fb	[ModelOpt] Introduce VLLM_MAX_TOKENS_PER_EXPERT_FP4_MOE env var to control blockscale tensor allocation (#18160 ) Signed-off-by: Pavani Majety <pmajety@nvidia.com>	2025-05-23 15:52:20 -07:00
bnellnm	f9c069c85e	Modularize fused experts and integrate PPLX kernels (#15956 )	2025-05-14 13:11:54 -07:00
Pavani Majety	65f0f74b66	[Hardware/NVIDIA/Modelopt] Fix modelopt forward method for v1 torch.compile (#18101 ) Signed-off-by: Pavani Majety <pmajety@nvidia.com>	2025-05-13 19:33:00 -07:00
Pavani Majety	0c0fdae84f	[Hardware/NVIDIA/Kernel] Enable nvidia/DeepSeek-R1-FP4 Model (#16362 )	2025-05-09 16:24:41 -07:00
Varun Sundar Rabindranath	7b8a2ab76f	[Kernel] Add expert_map support to Cutlass FP8 MOE (#16861 ) Signed-off-by: varun sundar rabindranath <vsundarr@redhat.com> Co-authored-by: varun sundar rabindranath <vsundarr@redhat.com>	2025-04-21 20:44:32 -07:00
Lu Fang	55dcce91df	Upstream Llama4 Support to Main (#16113 ) Signed-off-by: Aston Zhang <22279212+astonzhang@users.noreply.github.com> Signed-off-by: Chris Thi <chris.c.thi@gmail.com> Signed-off-by: drisspg <drisspguessous@gmail.com> Signed-off-by: Jon Swenson <jmswen@gmail.com> Signed-off-by: Keyun Tong <tongkeyun@gmail.com> Signed-off-by: Lu Fang <fanglu@meta.com> Signed-off-by: Xiaodong Wang <xdwang@meta.com> Signed-off-by: Yang Chen <yangche@fb.com> Signed-off-by: Ye (Charlotte) Qi <yeq@meta.com> Signed-off-by: Yong Hoon Shin <yhshin@meta.com> Signed-off-by: Zijing Liu <liuzijing2014@gmail.com> Signed-off-by: Lu Fang <lufang@fb.com> Signed-off-by: Lu Fang <fanglu@fb.com> Signed-off-by: Lucia Fang <fanglu@fb.com> Signed-off-by: Roger Wang <ywang@roblox.com> Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> Co-authored-by: Lu Fang <fanglu@fb.com> Co-authored-by: Roger Wang <ywang@roblox.com> Co-authored-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-04-07 08:06:27 -07:00
bnellnm	15ba07ef25	[Minor] Fused experts refactor (#15914 ) Signed-off-by: Bill Nell <bnell@redhat.com>	2025-04-03 10:19:38 -07:00

45 Commits