biondizzle/vllm - vllm - Gitea: Git with a cup of tea

Author	SHA1	Message	Date
bnellnm	c1909e7e8c	[Kernels] MoE refactor (#19636 ) Signed-off-by: Bill Nell <bnell@redhat.com> Signed-off-by: ElizaWszola <ewszola@redhat.com> Co-authored-by: ElizaWszola <ewszola@redhat.com>	2025-07-02 06:08:27 -07:00
TJian	02cabff207	[V1] [ROCm] Enable EP with AITER Fused MoE (#20270 ) Signed-off-by: tjtanaa <tunjian.tan@embeddedllm.com>	2025-07-01 16:48:30 +00:00
Li, Jiang	6cc1e7d96d	[CPU] Update custom ops for the CPU backend (#20255 ) Signed-off-by: jiang1.li <jiang1.li@intel.com>	2025-07-01 07:25:03 +00:00
Dipika Sikka	6f2f53a82d	[Quantization] Add compressed-tensors NVFP4 MoE Support (#19990 ) Signed-off-by: Dipika Sikka <dipikasikka1@gmail.com> Signed-off-by: Dipika <dipikasikka1@gmail.com>	2025-06-29 22:05:40 +00:00
Wentao Ye	4d36693687	[Refactor] Create a function util and cache the results for `has_deepgemm`, `has_deepep`, `has_pplx` (#20187 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-06-28 22:06:38 +00:00
bnellnm	c6c983053d	[Bugfix] Mark 'hidden_states' as mutable in moe_forward registration. (#20152 ) Signed-off-by: Bill Nell <bnell@redhat.com>	2025-06-27 09:42:22 -06:00
Bowen Wang	e9fd658a73	[Feature] Expert Parallelism Load Balancer (EPLB) (#18343 ) Signed-off-by: Bowen Wang <abmfy@icloud.com>	2025-06-26 15:30:21 -07:00
Li, Jiang	0567c8249f	[CPU] Fix torch version in x86 CPU backend (#19258 ) Signed-off-by: jiang1.li <jiang1.li@intel.com>	2025-06-26 03:34:47 -07:00
bnellnm	015fab8c2f	[Kernels][Bugfix] Use torch op for all kernels in FusedMoE forward. Add additional testing for cudagraphs. (#19717 ) Signed-off-by: Bill Nell <bnell@redhat.com>	2025-06-24 23:22:58 -07:00
Tyler Michael Smith	68aaeb3749	[EP+DP] Optimize the little operations in the DeepGEMM + DeepEP low latency case (#19885 ) Signed-off-by: Varun Sundar Rabindranath <vsundarr@redhat.com> Signed-off-by: Tyler Michael Smith <tysmith@redhat.com> Co-authored-by: Varun Sundar Rabindranath <vsundarr@redhat.com>	2025-06-23 11:07:47 -07:00
Varun Sundar Rabindranath	9d880f594d	[Misc] Turn MOE_DP_CHUNK_SIZE into an env var (#19506 )	2025-06-12 18:01:16 +00:00
ElizaWszola	84166fee97	[Kernel] Integrate CUTLASS MoE kernel with PPLX (#18762 ) Signed-off-by: ElizaWszola <ewszola@redhat.com> Signed-off-by: Tyler Michael Smith <tyler@neuralmagic.com> Co-authored-by: Tyler Michael Smith <tyler@neuralmagic.com>	2025-06-06 18:26:11 -07:00
Varun Sundar Rabindranath	fa98d77773	[Kernel] DeepEP dispatch-combine kernel integration (#18434 ) Signed-off-by: Varun <vsundarr@redhat.com> Co-authored-by: Varun Sundar Rabindranath <vsundarr@redhat.com>	2025-06-03 12:30:02 -07:00
Simon Mo	02f0c7b220	[Misc] Add SPDX-FileCopyrightText (#19100 ) Signed-off-by: simon-mo <simon.mo@hey.com>	2025-06-03 11:20:17 -07:00
Tyler Michael Smith	8a57872b2a	[Bugfix][EP+DP] Use pplx-kernel internode instead of intranode (#19034 ) Signed-off-by: Tyler Michael Smith <tysmith@redhat.com> Signed-off-by: Tyler Michael Smith <tyler@neuralmagic.com>	2025-06-03 11:36:51 +08:00
vllmellm	0f5e0d567e	[FEAT][ROCm] Add AITER grouped topk for DeepSeekV2 (#18825 ) Signed-off-by: vllmellm <vllm.ellm@embeddedllm.com>	2025-05-31 03:39:31 -07:00
Varun Sundar Rabindranath	7951d78738	[Core] Enable CUDA graphs for DP + All2All kernels (#18724 ) Signed-off-by: Varun Sundar Rabindranath <varun@neuralmagic.com> Co-authored-by: Varun Sundar Rabindranath <varun@neuralmagic.com>	2025-05-28 22:55:30 +00:00
vllmellm	d260f799a9	[FEAT] [ROCm] Upgrade AITER Fused MoE kernels. (#18271 ) Signed-off-by: vllmellm <vllm.ellm@embeddedllm.com>	2025-05-26 23:14:07 -07:00
wangxiyuan	b9018a3f9f	[BugFix] Fix import error for fused_moe (#18642 ) Signed-off-by: wangxiyuan <wangxiyuan1007@gmail.com>	2025-05-24 07:53:36 -07:00
youkaichao	6a7988c55b	Refactor pplx init logic to make it modular (prepare for deepep) (#18200 ) Signed-off-by: youkaichao <youkaichao@gmail.com>	2025-05-23 23:43:43 +08:00
Michael Goin	3b17ea26e4	[TPU] Re-enable the Pallas MoE kernel (#18025 ) Signed-off-by: Michael Goin <mgoin64@gmail.com>	2025-05-20 19:52:27 -07:00
TJian	92540529c0	[Bugfix] [ROCm]: Remove assertion logic when using AITER fused moe in unquantizedMethod to reenable LLama4 BF16 (#18205 ) Signed-off-by: tjtanaa <tunjian.tan@embeddedllm.com>	2025-05-15 09:53:18 -07:00
Mengqing Cao	70f8b96724	[Bugfix] Fix FusedMoEPrepareAndFinalize for cuda-disalike backends (#18178 ) Signed-off-by: Mengqing Cao <cmq0113@163.com>	2025-05-14 23:16:31 -07:00
bnellnm	f9c069c85e	Modularize fused experts and integrate PPLX kernels (#15956 )	2025-05-14 13:11:54 -07:00
TJian	612c2edb4f	[FEAT] [ROCm]: Add AITER CK 2 Stages MoE support (#17110 ) Signed-off-by: tjtanaa <tunjian.tan@embeddedllm.com> Co-authored-by: Gregory Shtrasberg <Gregory.Shtrasberg@amd.com>	2025-05-14 03:03:11 -07:00
vllmellm	2d912fb66f	[FEAT] [ROCm] [V1]: Add AITER biased group topk for DeepSeekV3 (#17955 ) Signed-off-by: tjtanaa <tunjian.tan@embeddedllm.com> Co-authored-by: tjtanaa <tunjian.tan@embeddedllm.com>	2025-05-13 22:03:47 -07:00
youkaichao	6266c57bae	[core][distributed] add ep group and all2all interface (#18077 ) Signed-off-by: youkaichao <youkaichao@gmail.com>	2025-05-14 10:46:49 +08:00
Harry Mellor	6223dd8114	Update deprecated type hinting in `model_executor/layers` (#18056 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-05-13 04:17:23 -07:00
Michael Goin	ea6ae8cb45	[Bugfix] Fix marlin moe fallback logic for llama4 (#18042 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2025-05-13 07:53:28 +00:00
Pavani Majety	0c0fdae84f	[Hardware/NVIDIA/Kernel] Enable nvidia/DeepSeek-R1-FP4 Model (#16362 )	2025-05-09 16:24:41 -07:00
Caleb_Du	3e887d2e0c	permute/unpermute kernel for moe optimization (#14568 ) Signed-off-by: Caleb_Du <Caleb_Du@zju.edu.cn>	2025-05-02 11:31:55 -07:00
Charlie Fu	ed2462030f	[Bugfix] Fix moe weight losing all extra attrs after `process_weights_after_loading`. (#16854 ) Signed-off-by: charlifu <charlifu@amd.com>	2025-04-28 21:05:07 +00:00
Lucas Wilkinson	7eb4255628	[BugFix] Accuracy fix for llama4 int4 - improperly casted scales (#16801 ) Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>	2025-04-17 22:13:29 -07:00
Jinzhen Lin	d06ba4ed3f	[Kernel] moe wna16 marlin kernel (#14447 ) Signed-off-by: Jinzhen Lin <linjinzhen@hotmail.com> Co-authored-by: Michael Goin <michael@neuralmagic.com> Co-authored-by: mgoin <mgoin64@gmail.com>	2025-04-14 20:05:22 -07:00
Michael Goin	c70cf0fe06	[Kernel] Use moe_wna16 kernel for compressed tensors wna16 moe models (#16038 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2025-04-10 15:08:47 +08:00
zxfan-cpu	ad971af8c7	[Bugfix] fix use-ep bug to enable ep by dp/tp size > 1 (#16161 )	2025-04-07 20:48:47 -07:00
Lu Fang	55dcce91df	Upstream Llama4 Support to Main (#16113 ) Signed-off-by: Aston Zhang <22279212+astonzhang@users.noreply.github.com> Signed-off-by: Chris Thi <chris.c.thi@gmail.com> Signed-off-by: drisspg <drisspguessous@gmail.com> Signed-off-by: Jon Swenson <jmswen@gmail.com> Signed-off-by: Keyun Tong <tongkeyun@gmail.com> Signed-off-by: Lu Fang <fanglu@meta.com> Signed-off-by: Xiaodong Wang <xdwang@meta.com> Signed-off-by: Yang Chen <yangche@fb.com> Signed-off-by: Ye (Charlotte) Qi <yeq@meta.com> Signed-off-by: Yong Hoon Shin <yhshin@meta.com> Signed-off-by: Zijing Liu <liuzijing2014@gmail.com> Signed-off-by: Lu Fang <lufang@fb.com> Signed-off-by: Lu Fang <fanglu@fb.com> Signed-off-by: Lucia Fang <fanglu@fb.com> Signed-off-by: Roger Wang <ywang@roblox.com> Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> Co-authored-by: Lu Fang <fanglu@fb.com> Co-authored-by: Roger Wang <ywang@roblox.com> Co-authored-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-04-07 08:06:27 -07:00
liuzhenwei	0812d8dd41	[Hardware][Gaudi][BugFix] fix arguments of hpu fused moe (#15945 ) Signed-off-by: zhenwei <zhenweiliu@habana.ai>	2025-04-04 09:38:55 -07:00
Roger Wang	0e00d40e4f	[V1][Bugfix] Fix typo in MoE TPU checking (#15927 ) Signed-off-by: Roger Wang <ywang@roblox.com>	2025-04-01 23:46:42 -07:00
Alexander Matveev	7e4e709b43	[V1] TPU - Fix fused MOE (#15834 ) Signed-off-by: Alexander Matveev <amatveev@redhat.com>	2025-03-31 22:58:07 -07:00
Robert Shaw	43ed4143c4	[Quantization] Fp8 Channelwise Dynamic Per Token GroupedGEMM (#15587 ) Signed-off-by: ElizaWszola <eliza@neuralmagic.com> Signed-off-by: ElizaWszola <ewszola@redhat.com> Signed-off-by: rshaw@neuralmagic.com <robertgshaw2@gmail.com> Co-authored-by: ElizaWszola <eliza@neuralmagic.com> Co-authored-by: Lucas Wilkinson <wilkinson.lucas@gmail.com> Co-authored-by: ElizaWszola <ewszola@redhat.com>	2025-03-27 06:47:25 +00:00
Robert Shaw	e1e0fd7543	[TPU] Avoid Triton Import (#15589 ) Signed-off-by: rshaw@neuralmagic.com <robertgshaw2@gmail.com>	2025-03-27 06:43:02 +00:00
Mengqing Cao	fb22be5817	[moe][quant] add weight name case for offset (#15515 ) Signed-off-by: Mengqing Cao <cmq0113@163.com>	2025-03-27 04:50:29 +00:00
vllmellm	5ebf66748b	[FEAT][ROCm] Integrate Fused MoE Kernels from AITER (#14967 ) Signed-off-by: vllmellm <vllm.ellm@embeddedllm.com> Signed-off-by: tjtanaa <tunjian.tan@embeddedllm.com> Co-authored-by: tjtanaa <tunjian.tan@embeddedllm.com>	2025-03-26 16:30:30 +08:00
Gregory Shtrasberg	f533b5837f	[ROCm][Kernel] MoE weights padding (#14454 ) Signed-off-by: Gregory Shtrasberg <Gregory.Shtrasberg@amd.com> Signed-off-by: charlifu <charlifu@amd.com> Co-authored-by: charlifu <charlifu@amd.com>	2025-03-24 23:45:30 +00:00
liuzhenwei	5eeadc2642	[Hardware][Gaudi][Feature] Enable Dynamic MoE for Mixtral (#12303 ) Signed-off-by: zhenwei <zhenweiliu@habana.ai>	2025-03-24 09:48:40 -07:00
Thien Tran	95d680b862	[Bugfix][IPEX] Add `VLLM_CPU_MOE_PREPACK` to allow disabling MoE prepack when CPU does not support it (#14681 ) Signed-off-by: Thien Tran <gau.nernst@yahoo.com.sg>	2025-03-13 20:43:18 -07:00
Li, Jiang	ff47aab056	[CPU] Upgrade CPU backend to torch-2.6 (#13381 ) Signed-off-by: jiang1.li <jiang1.li@intel.com> Co-authored-by: Isotr0py <2037008807@qq.com>	2025-03-12 10:41:13 +00:00
Tyler Michael Smith	958adce478	[Bugfix] Fix use_direct_call condition in FusedMoE layer for (#14382 ) Signed-off-by: Tyler Michael Smith <tyler@neuralmagic.com>	2025-03-06 14:17:21 -08:00
Tyler Michael Smith	cc2f9b32c8	[Distributed] Add enable_expert_parallel arg (#14305 ) Signed-off-by: Tyler Michael Smith <tyler@neuralmagic.com>	2025-03-06 18:54:45 +00:00

1 2

80 Commits