biondizzle/vllm - vllm - Gitea: Git with a cup of tea

Author	SHA1	Message	Date
Matthew Bonanni	2612ba9285	[1/N][Attention] Restructure attention: move files (#31916 ) Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>	2026-01-09 13:10:24 -08:00
Jeremy Teboul	657e9c0e18	[Fix] Introduce audio channels spec (#31595 ) Signed-off-by: Jeremy Teboul <jeremyte@meta.com>	2026-01-09 19:34:51 +00:00
Shanshan Shen	08d954f036	[Doc] Add developer guide for CustomOp (#30886 ) Signed-off-by: shen-shanshan <467638484@qq.com>	2026-01-09 16:21:11 +00:00
maang	7cdf7e2fe0	[Model] Remove redundant None check in DeepSeekOCR image input processing (#32016 ) Signed-off-by: maang <maang_h@163.com>	2026-01-09 06:12:44 -08:00
Cyrus Leung	c8ed39b9dd	[Model] Reorganize pooling layers (#31973 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2026-01-09 11:02:14 +00:00
Alex Brooks	dc77cb7129	[Bugfix] Fix Var Length Batched Padding in Granite Speech (#31906 ) Signed-off-by: Alex-Brooks <Alex.Brooks@ibm.com>	2026-01-09 10:28:43 +00:00
Lucas Wilkinson	6cdf015c3c	[Misc] Fix `Current vLLM config is not set.` warnings, assert to avoid issues in the future (#31747 ) Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com> Signed-off-by: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com> Co-authored-by: Luka Govedič <ProExpertProg@users.noreply.github.com>	2026-01-08 15:20:49 -08:00
yxing-bj	fe86be66c5	[Model] Support IQuestCoder model (#31575 ) Signed-off-by: yxing <yxing@iquestlab.com>	2026-01-08 14:42:57 +00:00
Ce Zhao	1123a87892	[Model] Enable LoRA support for Pixtral (#31724 ) Signed-off-by: <> Signed-off-by: 赵策 <alcor@zhaocedeMacBook-Air.local> Signed-off-by: 赵策 <alcor@mac.mynetworksettings.com> Co-authored-by: 赵策 <alcor@mac.mynetworksettings.com>	2026-01-08 05:00:57 -08:00
tianshu-Michael-yu	03fd76c570	[Model] Add LFM2-VL model support (#31758 ) Signed-off-by: Tianshu Yu <tianshuyu.formal@gmail.com> Signed-off-by: Cyrus Leung <cyrus.tl.leung@gmail.com> Co-authored-by: Roger Wang <hey@rogerw.io> Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com>	2026-01-08 05:00:27 -08:00
Bijaya Dangol	59d260f5e4	[Model] Add Grok-2 (#31847 ) Signed-off-by: dangoldbj <dangoldbj23@gmail.com>	2026-01-08 04:59:48 -08:00
Patrick von Platen	18d4e481d0	[Voxtral] Fix speech transcription api (#31388 ) Signed-off-by: Patrick von Platen <patrick.v.platen@gmail.com> Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com> Signed-off-by: bk-201 <joy25810@foxmail.com> Signed-off-by: Jee Jee Li <pandaleefree@gmail.com> Signed-off-by: prashanth058 <prashanth.dannamaneni@uipath.com> Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com> Co-authored-by: Jee Jee Li <pandaleefree@gmail.com> Co-authored-by: bk-201 <joy25810@foxmail.com> Co-authored-by: prashanth058 <prashanth.dannamaneni@uipath.com> Co-authored-by: Anexdeus <5142168@mail.ru> Co-authored-by: Julien Denize <40604584+juliendenize@users.noreply.github.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk> Co-authored-by: Nicolò Lucchesi <nicolo.lucchesi@gmail.com>	2026-01-08 18:34:19 +08:00
Isotr0py	2972a05473	[MM Encoder]: Make MMEncoderAttention's `scale` takes effect properly (#31950 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2026-01-08 02:33:48 -08:00
Cyrus Leung	5576227bc1	[Model] Standardize common vision encoders (#31947 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2026-01-08 02:33:16 -08:00
Cyrus Leung	d1b6fe007f	[Chore] Further cleanup pooler (#31951 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2026-01-08 02:16:21 -08:00
BingjiaWang	96fcd3c267	[Misc] Support qwen3-next lora (#31719 )	2026-01-08 09:27:50 +00:00
Isotr0py	eac3b96ec0	[Models] Allow converting Qwen3-VL into Reranker model (#31890 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2026-01-08 08:10:15 +00:00
Zyyeric	63baa28cf5	[Model] Enable LoRA support for tower and connector in GLM4-V (#31652 ) Signed-off-by: Zyyeric <eric1976808123@gmail.com> Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>	2026-01-08 15:45:53 +08:00
ShaanveerS	9572f74f15	[Model] Enable LoRA support for tower and connector in DotsOCR (#31825 ) Signed-off-by: ShaanveerS <shaanver.singh@gmail.com>	2026-01-08 14:50:16 +08:00
roikoren755	bf184a6621	Enable quantized attention in NemotronH models (#31898 ) Signed-off-by: Roi Koren <roik@nvidia.com>	2026-01-07 17:37:19 +00:00
Cyrus Leung	b7036c87a1	[Refactor] Clean up pooler modules (#31897 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2026-01-08 00:07:43 +08:00
Jared Wen	974138751b	[Refactor] GLM-ASR Modeling (#31779 ) Signed-off-by: JaredforReal <w13431838023@gmail.com> Co-authored-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2026-01-07 13:08:29 +00:00
Andy Liu	d111bc53ad	[Bugfix][MTP] Fix GLM4 MoE fp8 loading with MTP on (#31757 ) Signed-off-by: Andy Liu <andyliu@roblox.com>	2026-01-07 09:18:52 +00:00
BlankR	0790f07695	[Misc] Improve error messages for unsupported types and parameters (#30593 ) Signed-off-by: BlankR <hjyblanche@gmail.com> Co-authored-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com>	2026-01-07 09:00:16 +00:00
maang	1f33e38e81	[Model] Cleanup: Remove redundant manual definition of `make_empty_intermediate_tensors` in GLM-4-MoE (#31869 ) Signed-off-by: maang <maang_h@163.com>	2026-01-07 08:18:28 +00:00
ℍ𝕠𝕝𝕝𝕠𝕨 𝕄𝕒𝕟	482914849c	[BugFix] LoRA: Support loading base_layer of experts (#31104 ) Signed-off-by: Hollow Man <hollowman@opensuse.org>	2026-01-07 14:49:39 +08:00
Ce Zhao	a051525e07	[Model] Enable LoRA support for PaliGemma (#31656 ) Signed-off-by: 赵策 <alcor@mac.mynetworksettings.com> Signed-off-by: Alcor <alcor_zhao@outlook.com> Co-authored-by: 赵策 <alcor@mac.mynetworksettings.com>	2026-01-07 10:09:32 +08:00
Yakine Tahtah	4e67a8f616	[Bugfix] Fix GLM-4 MoE router logits dtype for data parallel chunking (#31055 ) Signed-off-by: ReinforcedKnowledge <reinforced.knowledge@gmail.com>	2026-01-06 17:57:56 +00:00
roikoren755	28c94770ad	[NemotronH] Use ReplicatedLinear for fc1_latent_proj (#31807 ) Signed-off-by: Roi Koren <roik@nvidia.com>	2026-01-06 16:00:40 +00:00
wang.yuqi	96860af655	[Model] rename use_pad_token to use_sep_token (#31784 ) Signed-off-by: wang.yuqi <yuqi.wang@daocloud.io>	2026-01-06 14:16:04 +00:00
Jzz1943	2c1a4f2488	[Bugfix]: avoid overriding audio/text kwargs (Qwen3-Omni) (#31790 ) Signed-off-by: Zhongze Jiang <jiangzhongze.jzz@ant-intl.com>	2026-01-06 12:59:17 +00:00
Isotr0py	7101e0851f	[Models]: Use `MMEncoderAttention` for MoonViT (#31738 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Signed-off-by: Roger Wang <hey@rogerw.io> Signed-off-by: h100 <h100@inferact.ai> Co-authored-by: Roger Wang <hey@rogerw.io> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com> Co-authored-by: h100 <h100@inferact.ai>	2026-01-06 08:00:25 +00:00
Cyrus Leung	da71d44410	[Doc] Show that `use_audio_in_video` is supported in docs (#30837 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2026-01-05 23:27:19 -08:00
maang	cd1245a184	[Cleanup] Remove redundant `decoder_layer_type` assignment in `Qwen2` (#31760 ) Signed-off-by: maang <maang_h@163.com>	2026-01-05 18:09:18 -08:00
maang	d386ab1412	[Docs] Improve malformed exception caused by backslash line continuations (#31694 ) Signed-off-by: maang <maang_h@163.com> Signed-off-by: maang <55082429+maang-h@users.noreply.github.com> Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com> Co-authored-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com>	2026-01-05 17:51:54 -08:00
Michael Goin	9513029898	[Bugfix] Properly apply v_scale for mimo_v2_flash (#31175 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2026-01-05 23:20:46 +00:00
amitz-nv	ee21291825	[Model] Nemotron Parse 1.1 Support (#30864 ) Signed-off-by: amitz-nv <203509407+amitz-nv@users.noreply.github.com> Signed-off-by: Michael Goin <mgoin64@gmail.com> Co-authored-by: Michael Goin <mgoin64@gmail.com>	2026-01-05 13:00:14 -08:00
Wang Kunpeng	5708297e4e	[Misc][Model][Refactor] Pass the prefix into Linear layers (#31669 ) Signed-off-by: Wang Kunpeng <1289706727@qq.com>	2026-01-05 20:03:18 +00:00
wang.yuqi	911d38ed99	[Model] Let more models to support the score template. (#31335 ) Signed-off-by: wang.yuqi <yuqi.wang@daocloud.io> Signed-off-by: wang.yuqi <noooop@126.com> Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com>	2026-01-05 11:54:26 +00:00
Qiping Pan	a2ad15c070	[Model] Enable LoRA support for BLIP2 (#31620 ) Signed-off-by: Qiping Pan <panqiping@outlook.com>	2026-01-05 08:02:24 +00:00
wang.yuqi	8be6432bda	[CI Failure] Fix NomicBert max_model_len validation (#31662 ) Signed-off-by: wang.yuqi <yuqi.wang@daocloud.io>	2026-01-05 11:06:52 +08:00
jeremyteboul	97a01308e9	Improve HF qwen3_omni: preserve audio_sample_rate in kwargs restructuring (#29255 ) Signed-off-by: Jeremy Teboul <jeremyteboul@fb.com> Co-authored-by: Jeremy Teboul <jeremyteboul@fb.com>	2026-01-03 04:31:09 +00:00
Jay Hemnani	5ac55eb30f	[Model] Enable LoRA support for tower and connector in LLaVA (#31513 ) Signed-off-by: Jay Hemnani <jayhemnani9910@gmail.com> Co-authored-by: Jay Hemnani <jayhemnani9910@gmail.com> Co-authored-by: Claude Opus 4.5 <noreply@anthropic.com>	2026-01-01 19:32:39 -08:00
zhima771	27864a851c	feat: support LoRA for DeepSeek-OCR(Language Model part) (#31569 ) Signed-off-by: zhima771 <15836938703@163.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk> Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>	2026-01-01 19:32:11 -08:00
Fanjiang Ye	d8da76f3b7	[Bugfix] Fix BAGEL online serving for text and image understanding (#31546 ) Signed-off-by: Dylan1229 <yvanphys@gmail.com> Signed-off-by: UED <zxr3611244710@gmail.com> Signed-off-by: mr-ye-cao <yecaoyc2019@gmail.com> Co-authored-by: UED <zxr3611244710@gmail.com> Co-authored-by: mr-ye-cao <yecaoyc2019@gmail.com> Co-authored-by: Mr-Ye-Cao <60802056+Mr-Ye-Cao@users.noreply.github.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>	2025-12-31 14:46:10 -08:00
baonudesifeizhai	d722e9e614	Add GLM-ASR multimodal support (#31436 ) Signed-off-by: baonudesifeizhai <baonudesifeizhai@gmail.com> Signed-off-by: baonudesifeizhai <85092850+baonudesifeizhai@users.noreply.github.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>	2025-12-31 23:12:24 +08:00
danisereb	108a2728f7	Add get_expert_mapping to NemotronHModel (for LoRA support) (#31539 ) Signed-off-by: Daniel Serebrenik <daserebrenik@nvidia.com>	2025-12-30 21:09:03 -08:00
yt0428	3f52fa5aa2	[Model] Add support for openPangu moe model (#28775 ) Signed-off-by: yuantao <2422264527@qq.com> Signed-off-by: yt0428 <51468697+yt0428@users.noreply.github.com> Co-authored-by: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>	2025-12-30 08:11:38 -08:00
Roger Young	5bc664110f	Optimize QKNorm for MiniMax-M2/M2.1 (#31493 ) Signed-off-by: xuebi <xuebi@minimaxi.com> Co-authored-by: xuebi <xuebi@minimaxi.com>	2025-12-29 16:30:18 +00:00
Harry Mellor	e37e7349e6	Replace `nn.ConvNd` with vLLM's `ConvNdLayer` for Transformers modeling backend (#31498 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-12-29 16:20:01 +00:00

1 2 3 4 5 ...

2064 Commits