biondizzle/vllm - vllm - Gitea: Git with a cup of tea

Author	SHA1	Message	Date
ℍ𝕠𝕝𝕝𝕠𝕨 𝕄𝕒𝕟	482914849c	[BugFix] LoRA: Support loading base_layer of experts (#31104 ) Signed-off-by: Hollow Man <hollowman@opensuse.org>	2026-01-07 14:49:39 +08:00
Harry Mellor	cf3eacfe58	Standardise `get_rope` to use `rope_parameters["partial_rotary_factor"]`, not `rotary_dim` (#30389 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-12-11 20:45:23 +00:00
Matthew Bonanni	430dd4d9eb	[Attention] Remove imports from `vllm/attention/__init__.py` (#29342 ) Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>	2025-11-26 10:53:15 -07:00
Dezhan	dc45efc8ef	[BugFix] Fix Llama4 Pipeline Parallelism Assert Error (#28577 ) Co-authored-by: Dezhan Tu <dztu@meta.com>	2025-11-20 02:52:36 -08:00
Harry Mellor	a8b70304d6	Update `rope_scaling` to `rope_parameters` in preparation for Transformers v5 (#28542 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-11-19 09:06:36 -08:00
Ilya Markov	e50c454672	[BugFix] Support EP/DP + EPLB with MTP (#25311 ) Signed-off-by: ilmarkov <markovilya197@gmail.com> Signed-off-by: Sage Moore <sage@neuralmagic.com> Co-authored-by: Sage Moore <sage@neuralmagic.com> Co-authored-by: Tyler Michael Smith <tyler@neuralmagic.com> Co-authored-by: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com>	2025-11-05 15:22:17 +00:00
Harry Mellor	8fcaaf6a16	Update `Optional[x]` -> `x \| None` and `Union[x, y]` to `x \| y` (#26633 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-10-12 09:51:31 -07:00
bnellnm	47e66c24e2	[Model] Apply shared experts overlap optimization to all models with shared experts (#26145 ) Signed-off-by: Bill Nell <bnell@redhat.com>	2025-10-09 11:31:04 -04:00
Harry Mellor	d6953beb91	Convert formatting to use `ruff` instead of `yapf` + `isort` (#26247 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-10-05 07:06:22 -07:00
Tyler Michael Smith	a5354b3ed2	[Bugfix][WideEP] Apply TP Attn + EP MoE fix to other models (#24982 ) Signed-off-by: Tyler Michael Smith <tlrmchlsmth@gmail.com>	2025-09-27 14:22:28 +00:00
bnellnm	e9b92dcd89	[Kernels] Overlap shared experts with send/recv (#23273 ) Signed-off-by: Bill Nell <bnell@redhat.com>	2025-09-03 12:35:18 -04:00
qizixi	5bfe0dea7a	[bug fix] Fix llama4 spec decoding (#22691 ) Signed-off-by: qizixi <qizixi@meta.com> Co-authored-by: Lu Fang <30275821+houseroad@users.noreply.github.com>	2025-08-19 08:53:24 +00:00
Po-Han Huang (NVIDIA)	4f0f844b16	Fix cuda illegal mem access with Llama4 TP8 + rms_norm custom op (#22701 ) Signed-off-by: Po-Han Huang <pohanh@nvidia.com>	2025-08-12 21:21:50 -07:00
Lucas Wilkinson	1dc8a70b6d	[Attention] Support multiple attention metadata builders per kv_cache_spec + proper local attention no hybrid kv cache fix (#21588 ) Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com>	2025-08-06 18:40:52 -07:00
zhiweiz	9e0726e5bf	[Meta] Official Eagle mm support, first enablement on llama4 (#20788 ) Signed-off-by: morgendave <morgendave@gmail.com> Co-authored-by: Roger Wang <hey@rogerw.me>	2025-07-31 10:35:07 -07:00
Po-Han Huang (NVIDIA)	ff08e51940	[NVIDIA] Fix Llama4 Scout FP4 functionality issues (#21499 ) Signed-off-by: Po-Han Huang <pohanh@nvidia.com>	2025-07-30 07:33:40 -07:00
Zhiyu	4afe687a82	Enable ModelOpt Llama4 fp8 checkpoint deployment (#20419 ) Signed-off-by: Zhiyu Cheng <zhiyuc@nvidia.com>	2025-07-11 23:07:16 -07:00
Brayden Zhong	1afa9948f5	[Llama4] Update `attn_temperature_tuning` (#19997 ) Signed-off-by: Brayden Zhong <b8zhong@uwaterloo.ca>	2025-06-24 22:42:53 -04:00
Ning Xie	2f1c19b245	[CI] change spell checker from codespell to typos (#18711 ) Signed-off-by: Andy Xie <andy.xning@gmail.com>	2025-06-11 19:57:10 -07:00
Simon Mo	02f0c7b220	[Misc] Add SPDX-FileCopyrightText (#19100 ) Signed-off-by: simon-mo <simon.mo@hey.com>	2025-06-03 11:20:17 -07:00
Harry Mellor	26d0419309	Update deprecated type hinting in `models` (#18132 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-05-14 22:06:50 -07:00
bnellnm	f9c069c85e	Modularize fused experts and integrate PPLX kernels (#15956 )	2025-05-14 13:11:54 -07:00
Lucia Fang	b4ac4fa04d	[model] make llama4 compatible with pure dense layers (#17315 ) Signed-off-by: Lucia Fang <fanglu@fb.com>	2025-04-29 10:22:22 +08:00
Lucas Wilkinson	7eb4255628	[BugFix] Accuracy fix for llama4 int4 - improperly casted scales (#16801 ) Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>	2025-04-17 22:13:29 -07:00
Michael Goin	bd6028d6b0	Optimized topk for topk=1 (Llama-4) (#16512 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2025-04-12 14:21:08 +08:00
Yong Hoon Shin	99ef59cf7f	[Llama4] Enable attention temperature tuning by default for long context (>32k) (#16439 ) Signed-off-by: Ye (Charlotte) Qi <yeq@meta.com> Co-authored-by: Ye (Charlotte) Qi <yeq@meta.com>	2025-04-10 21:26:07 -07:00
Lucia Fang	ec7da6fcf3	[BugFix] llama4 qknorm should be not shared across head (#16311 ) Signed-off-by: Lu Fang <fanglu@fb.com>	2025-04-09 00:59:14 -07:00
Lu Fang	55dcce91df	Upstream Llama4 Support to Main (#16113 ) Signed-off-by: Aston Zhang <22279212+astonzhang@users.noreply.github.com> Signed-off-by: Chris Thi <chris.c.thi@gmail.com> Signed-off-by: drisspg <drisspguessous@gmail.com> Signed-off-by: Jon Swenson <jmswen@gmail.com> Signed-off-by: Keyun Tong <tongkeyun@gmail.com> Signed-off-by: Lu Fang <fanglu@meta.com> Signed-off-by: Xiaodong Wang <xdwang@meta.com> Signed-off-by: Yang Chen <yangche@fb.com> Signed-off-by: Ye (Charlotte) Qi <yeq@meta.com> Signed-off-by: Yong Hoon Shin <yhshin@meta.com> Signed-off-by: Zijing Liu <liuzijing2014@gmail.com> Signed-off-by: Lu Fang <lufang@fb.com> Signed-off-by: Lu Fang <fanglu@fb.com> Signed-off-by: Lucia Fang <fanglu@fb.com> Signed-off-by: Roger Wang <ywang@roblox.com> Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> Co-authored-by: Lu Fang <fanglu@fb.com> Co-authored-by: Roger Wang <ywang@roblox.com> Co-authored-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-04-07 08:06:27 -07:00

28 Commits