biondizzle/vllm - vllm - Gitea: Git with a cup of tea

Author	SHA1	Message	Date
Matthew Bonanni	a608b4c6c2	[5/N][Attention] Finish eliminating `vllm/attention` folder (#32064 ) Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>	2026-01-27 10:02:51 -05:00
Cyrus Leung	dcd80206b7	[Chore] Update type annotation of `input_ids` in model forward (#33063 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2026-01-26 06:02:10 -08:00
maang	1f33e38e81	[Model] Cleanup: Remove redundant manual definition of `make_empty_intermediate_tensors` in GLM-4-MoE (#31869 ) Signed-off-by: maang <maang_h@163.com>	2026-01-07 08:18:28 +00:00
ℍ𝕠𝕝𝕝𝕠𝕨 𝕄𝕒𝕟	482914849c	[BugFix] LoRA: Support loading base_layer of experts (#31104 ) Signed-off-by: Hollow Man <hollowman@opensuse.org>	2026-01-07 14:49:39 +08:00
Yakine Tahtah	4e67a8f616	[Bugfix] Fix GLM-4 MoE router logits dtype for data parallel chunking (#31055 ) Signed-off-by: ReinforcedKnowledge <reinforced.knowledge@gmail.com>	2026-01-06 17:57:56 +00:00
Yuxuan Zhang	8a7a414374	GLM-4.7 Tool Parser and Doc Update (#30876 ) Signed-off-by: zRzRzRzRzRzRzR <2448370773@qq.com>	2025-12-20 00:09:58 +00:00
Harry Mellor	cf3eacfe58	Standardise `get_rope` to use `rope_parameters["partial_rotary_factor"]`, not `rotary_dim` (#30389 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-12-11 20:45:23 +00:00
Harry Mellor	e10c84e06a	Access `partial_rotary_factor` from `rope_parameters` (#29966 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-12-04 18:42:49 +00:00
Matthew Bonanni	430dd4d9eb	[Attention] Remove imports from `vllm/attention/__init__.py` (#29342 ) Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>	2025-11-26 10:53:15 -07:00
Harry Mellor	a8b70304d6	Update `rope_scaling` to `rope_parameters` in preparation for Transformers v5 (#28542 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-11-19 09:06:36 -08:00
Harry Mellor	97d1c99302	Rename clashing method names for vLLM model protocol (#27583 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-11-12 19:14:33 -08:00
Ilya Markov	e50c454672	[BugFix] Support EP/DP + EPLB with MTP (#25311 ) Signed-off-by: ilmarkov <markovilya197@gmail.com> Signed-off-by: Sage Moore <sage@neuralmagic.com> Co-authored-by: Sage Moore <sage@neuralmagic.com> Co-authored-by: Tyler Michael Smith <tyler@neuralmagic.com> Co-authored-by: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com>	2025-11-05 15:22:17 +00:00
Harry Mellor	8fcaaf6a16	Update `Optional[x]` -> `x \| None` and `Union[x, y]` to `x \| y` (#26633 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-10-12 09:51:31 -07:00
bnellnm	47e66c24e2	[Model] Apply shared experts overlap optimization to all models with shared experts (#26145 ) Signed-off-by: Bill Nell <bnell@redhat.com>	2025-10-09 11:31:04 -04:00
Harry Mellor	d6953beb91	Convert formatting to use `ruff` instead of `yapf` + `isort` (#26247 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-10-05 07:06:22 -07:00
Yuxuan Zhang	b1ded114b9	Update GLM-4.5 Doc transformers version (#25830 ) Signed-off-by: zRzRzRzRzRzRzR <2448370773@qq.com>	2025-09-28 12:05:51 +00:00
Woosuk Kwon	1c3ffdbecc	[V0 Deprecation] Remove V0 sampling metadata (#25345 ) Signed-off-by: Woosuk Kwon <woosuk@thinkingmachines.ai>	2025-09-21 10:37:11 -07:00
whx	c15309a730	[Model] Apply SharedFusedMoE to glm4_moe. (#24849 ) Signed-off-by: whx-sjtu <2952154980@qq.com>	2025-09-17 16:02:31 +08:00
whx	4a9375fe9d	[Model] Pass param prefix to LLMHead (#24862 ) Signed-off-by: whx-sjtu <2952154980@qq.com>	2025-09-17 16:01:27 +08:00
bnellnm	e9b92dcd89	[Kernels] Overlap shared experts with send/recv (#23273 ) Signed-off-by: Bill Nell <bnell@redhat.com>	2025-09-03 12:35:18 -04:00
Yong Hoon Shin	426cc8629f	[BugFix] Fix routed_scaling_factor double mul for dots1 and glm4 MoE models (#24132 ) Signed-off-by: Yong Hoon Shin <yhshin@meta.com>	2025-09-03 04:57:59 +00:00
Xin Yang	8fb85b7bb6	Add routed_scaling_factor to MoE grouped topk (#23123 ) Signed-off-by: Xin Yang <xyangx@amazon.com> Co-authored-by: Michael Goin <mgoin64@gmail.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>	2025-08-29 21:36:48 -07:00
Lukas Geiger	de533ab2a1	[Models] Improve iteration over layers (#19497 ) Signed-off-by: Lukas Geiger <lukas.geiger94@gmail.com>	2025-08-29 09:26:34 +08:00
rongfu.leng	4fbda0b20c	[Feature] use --eplb_config to set eplb param (#20562 ) Signed-off-by: rongfu.leng <rongfu.leng@daocloud.io> Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com> Signed-off-by: rongfu.leng <lenronfu@gmail.com> Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-08-20 14:07:28 -07:00
Jee Jee Li	92ff41abea	[Model] Modify the gate implementation of glm4_moe (#22832 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-08-14 05:28:50 -07:00
Yuxuan Zhang	a6022e6fbc	GLM-4.5V with new class name at transformers (#22520 ) Signed-off-by: zRzRzRzRzRzRzR <2448370773@qq.com> Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Co-authored-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-08-09 00:50:21 -07:00
Cyrus Leung	65552b476b	[Misc] Use config definitions from Transformers library (#21913 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-08-08 23:10:51 -07:00
Yuxuan Zhang	c152e2a8a0	not tie_word_embeddings for glm-4.5 and glm-4.5v (#22460 ) Signed-off-by: zRzRzRzRzRzRzR <2448370773@qq.com>	2025-08-07 19:37:23 -07:00
Yuxuan Zhang	6fa41e0c32	self.gate dtype update for GLM-4.5 (#22203 ) Signed-off-by: zRzRzRzRzRzRzR <2448370773@qq.com>	2025-08-04 19:12:38 -07:00
Yuxuan Zhang	d3c18c9cb0	fuse fp32 for GLM-4.5 e_score_correction_bias (#22143 ) Signed-off-by: zRzRzRzRzRzRzR <2448370773@qq.com>	2025-08-03 09:04:54 -07:00
Jee Jee Li	5c3f2628d5	[Quantization] Enable BNB support for more MoE models (#21370 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-07-25 03:57:34 -07:00
Yuxuan Zhang	2ce90e5b01	Fix GLM-4 PP Missing Layer When using with PP. (#21531 ) Signed-off-by: zRzRzRzRzRzRzR <2448370773@qq.com>	2025-07-24 20:07:38 -07:00
Yuxuan Zhang	85bda9e7d0	remove GLM-4.5 quantization wrong Code (#21435 )	2025-07-24 01:52:43 -07:00
Yuxuan Zhang	10eb24cc91	GLM-4 Update (#20736 ) Signed-off-by: zRzRzRzRzRzRzR <2448370773@qq.com> Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Signed-off-by: Lu Fang <fanglu@fb.com> Co-authored-by: Isotr0py <mozf@mail2.sysu.edu.cn> Co-authored-by: Lu Fang <fanglu@fb.com>	2025-07-19 22:40:31 +00:00

34 Commits