biondizzle/vllm - vllm - Gitea: Git with a cup of tea

Author	SHA1	Message	Date
zxy	a3acfa1071	[Models] Intern-S1-Pro (#33636 ) Signed-off-by: zxy <zhou0493@e.ntu.edu.sg> Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Co-authored-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2026-02-03 05:49:45 -08:00
Matthew Bonanni	a608b4c6c2	[5/N][Attention] Finish eliminating `vllm/attention` folder (#32064 ) Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>	2026-01-27 10:02:51 -05:00
Cyrus Leung	dcd80206b7	[Chore] Update type annotation of `input_ids` in model forward (#33063 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2026-01-26 06:02:10 -08:00
Isotr0py	8edaf38570	[Models] Add `SharedFusedMoE` support to Qwen3MoE (#32082 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2026-01-23 23:36:31 -08:00
Robert Shaw	42135d6898	[MoE Refactor] Oracle Select FP8+NVFP4 Kernels In Priority (#32414 )	2026-01-21 08:22:33 -05:00
ℍ𝕠𝕝𝕝𝕠𝕨 𝕄𝕒𝕟	482914849c	[BugFix] LoRA: Support loading base_layer of experts (#31104 ) Signed-off-by: Hollow Man <hollowman@opensuse.org>	2026-01-07 14:49:39 +08:00
Harry Mellor	cf3eacfe58	Standardise `get_rope` to use `rope_parameters["partial_rotary_factor"]`, not `rotary_dim` (#30389 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-12-11 20:45:23 +00:00
haoyangli-amd	06462392e4	[bugfix][quantization] fix quark qwen3 kv_cache quantization (#30308 ) Signed-off-by: Haoyang Li <lihaoyang0109@gmail.com>	2025-12-10 03:24:12 +00:00
Matthew Bonanni	430dd4d9eb	[Attention] Remove imports from `vllm/attention/__init__.py` (#29342 ) Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>	2025-11-26 10:53:15 -07:00
Harry Mellor	a8b70304d6	Update `rope_scaling` to `rope_parameters` in preparation for Transformers v5 (#28542 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-11-19 09:06:36 -08:00
Harry Mellor	97d1c99302	Rename clashing method names for vLLM model protocol (#27583 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-11-12 19:14:33 -08:00
jiahanc	34553b9d27	[Performance] Support FP8 flashinfer TRTLLM MOE on Qwen3 and Qwen-3next (#27492 ) Signed-off-by: jiahanc <173873397+jiahanc@users.noreply.github.com>	2025-11-10 12:34:57 -05:00
Ilya Markov	e50c454672	[BugFix] Support EP/DP + EPLB with MTP (#25311 ) Signed-off-by: ilmarkov <markovilya197@gmail.com> Signed-off-by: Sage Moore <sage@neuralmagic.com> Co-authored-by: Sage Moore <sage@neuralmagic.com> Co-authored-by: Tyler Michael Smith <tyler@neuralmagic.com> Co-authored-by: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com>	2025-11-05 15:22:17 +00:00
Harry Mellor	8fcaaf6a16	Update `Optional[x]` -> `x \| None` and `Union[x, y]` to `x \| y` (#26633 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-10-12 09:51:31 -07:00
Jee Jee Li	f0a30a067b	[Bugfix] Fix qwen-moe packed_modules_mapping (#26634 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-10-11 15:21:33 +00:00
Rahul Tuli	d2a71530c1	Add EAGLE-3 Speculative Decoding Support for Qwen3 MoE (#26485 ) Signed-off-by: Rahul Tuli <rtuli@redhat.com>	2025-10-11 10:14:41 +00:00
Harry Mellor	d6953beb91	Convert formatting to use `ruff` instead of `yapf` + `isort` (#26247 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-10-05 07:06:22 -07:00
Roger Wang	6144754014	[Bugfix] Fix Qwen3-VL regression from #24982 (#25814 ) Signed-off-by: Roger Wang <hey@rogerw.io>	2025-09-28 03:21:09 +00:00
Tyler Michael Smith	a5354b3ed2	[Bugfix][WideEP] Apply TP Attn + EP MoE fix to other models (#24982 ) Signed-off-by: Tyler Michael Smith <tlrmchlsmth@gmail.com>	2025-09-27 14:22:28 +00:00
Isotr0py	d4d9899860	[Quantization] Add field to skip unquantized modules for GPTQ config (#25455 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-09-26 15:47:41 +00:00
Woosuk Kwon	1c3ffdbecc	[V0 Deprecation] Remove V0 sampling metadata (#25345 ) Signed-off-by: Woosuk Kwon <woosuk@thinkingmachines.ai>	2025-09-21 10:37:11 -07:00
bnellnm	5963b98b46	[Kernel] Delegate construction of FusedMoEQuantConfig to FusedMoEMethodBase subclasses (#22537 ) Signed-off-by: Bill Nell <bnell@redhat.com>	2025-09-17 17:43:31 -06:00
whx	4a9375fe9d	[Model] Pass param prefix to LLMHead (#24862 ) Signed-off-by: whx-sjtu <2952154980@qq.com>	2025-09-17 16:01:27 +08:00
Roger Wang	0f7acdd73c	[Model] Support Qwen3-VL Model Series (#24727 ) Signed-off-by: Roger Wang <hey@rogerw.io> Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Co-authored-by: Huang Jie <92386084+JJJYmmm@users.noreply.github.com> Co-authored-by: 松灵 <26085463+wulipc@users.noreply.github.com> Co-authored-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-09-17 05:01:04 +00:00
Wentao Ye	3beadc2f25	[Compilation Bug] Fix Inductor Graph Output with Shape Issue (#24772 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-09-12 21:23:05 +00:00
JartX	183a70967a	[BUGFIX] GPTQ quantization compatibility for Qwen3 MOE models (AutoGPTQ and AutoRound-GPTQ) (#23994 ) Signed-off-by: JartX <sagformas@epdcenter.es> Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Co-authored-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-09-01 03:33:40 +00:00
Lukas Geiger	de533ab2a1	[Models] Improve iteration over layers (#19497 ) Signed-off-by: Lukas Geiger <lukas.geiger94@gmail.com>	2025-08-29 09:26:34 +08:00
Isotr0py	a9082a4d14	[Bugfix] Fix Qwen3 MoE GPTQ inference (#23490 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-08-25 06:40:20 -07:00
rongfu.leng	4fbda0b20c	[Feature] use --eplb_config to set eplb param (#20562 ) Signed-off-by: rongfu.leng <rongfu.leng@daocloud.io> Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com> Signed-off-by: rongfu.leng <lenronfu@gmail.com> Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-08-20 14:07:28 -07:00
yiz-liu	4f510bc2a1	[Model] Removes redundant all-reduce operation in Qwen3MoeSparseMoeBlock (#23169 ) Signed-off-by: Yizhou Liu <liu_yizhou@outlook.com>	2025-08-19 16:18:41 +00:00
Gh0u1L5	b159c0a67a	Fix GGUF loader for Qwen3 MoE. (#22785 ) Signed-off-by: Gh0u1L5 <Gh0u1L5@outlook.com>	2025-08-13 06:08:23 -07:00
Andy Chen	9b94d6ec8f	Enable 4bit bnb prequant MOE (#21548 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com> Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>	2025-08-11 19:02:14 -07:00
JartX	1e55dfa7e5	[BUGFIX] KeyError 'layers.14.mlp.gate.g_idx' for Qwen3-MoE with GPTQ on ROCm (#22017 )	2025-08-11 00:13:30 -07:00
Cyrus Leung	65552b476b	[Misc] Use config definitions from Transformers library (#21913 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-08-08 23:10:51 -07:00
Zhiyu	d57dc2364e	Add ModelOpt Qwen3 nvfp4 support (#20101 ) Signed-off-by: Zhiyu Cheng <zhiyuc@nvidia.com>	2025-08-07 19:18:19 -07:00
Tao He	7377131a2c	[Qwen3] Enable dual-chunk-attention support for Qwen3 models. (#21924 ) Signed-off-by: Tao He <linzhu.ht@alibaba-inc.com>	2025-08-06 19:58:08 -07:00
aladerran	d979dd6beb	[Feature][EPLB] Add eplb support for Qwen3 (#20815 ) Signed-off-by: aladerran <aladerran@gmail.com>	2025-07-30 06:27:57 -07:00
Jee Jee Li	a3a6c695f4	[Misc] Qwen MoE model supports LoRA (#20932 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-07-17 18:32:52 +00:00
Jee Jee Li	a99b9f7dee	[Quantization] add BNB for MixtralForCausalLM (#20893 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-07-14 07:34:34 +00:00
Jee Jee Li	8020e98c9f	[Quantization][1/N] MoE support BNB-Inflight Quantization (#20061 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-07-11 08:01:13 +00:00
bnellnm	78fe77534b	[Kernel] Enable fp8 support for pplx and BatchedTritonExperts. (#18864 ) Signed-off-by: Bill Nell <bnell@redhat.com>	2025-07-03 14:55:40 -07:00
noiji	f5dfa07531	[Bugfix] Skip loading extra parameters for modelopt Qwen3 MoE model (#19598 ) Signed-off-by: noiji <>	2025-06-30 18:21:56 +09:00
Xerxes	e41bf15cd0	[Chore]: qwen3-moe-type-hints-mistake (#19860 ) Co-authored-by: xinnan.hou <hxn02029096@alibaba-inc.com>	2025-06-19 21:43:07 -07:00
Simon Mo	02f0c7b220	[Misc] Add SPDX-FileCopyrightText (#19100 ) Signed-off-by: simon-mo <simon.mo@hey.com>	2025-06-03 11:20:17 -07:00
Isotr0py	f07a673eb2	[Misc] Allow `AutoWeightsLoader` to skip loading weights with specific substr in name (#18358 ) Signed-off-by: Isotr0py <2037008807@qq.com>	2025-05-19 20:20:12 -07:00
Harry Mellor	26d0419309	Update deprecated type hinting in `models` (#18132 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-05-14 22:06:50 -07:00
bnellnm	f9c069c85e	Modularize fused experts and integrate PPLX kernels (#15956 )	2025-05-14 13:11:54 -07:00
Jee Jee Li	63dc3426e0	[Model] Add packed_modules_mapping for Qwen3-MOE (#18118 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-05-14 02:13:19 -07:00
Wanrui Dai	f80ae5bdcf	[Kernel] Use fused rmsnorm for some models like qwen3 series (#17735 ) Signed-off-by: evian <eviantai@u.nus.edu> Co-authored-by: evian <eviantai@u.nus.edu>	2025-05-06 23:10:02 -07:00
Aaron Pham	da4e7687b5	[Fix] Support passing args to logger (#17425 ) Signed-off-by: Aaron Pham <contact@aarnphm.xyz>	2025-04-30 08:06:58 -07:00

1 2

53 Commits