biondizzle/vllm - vllm - Gitea: Git with a cup of tea

Author	SHA1	Message	Date
Chenheli Hua	48eb8eba58	[Temp fix] Disable torch.compile for Qwen2.5 VL's VisionBlock temporarily. (#27760 ) Signed-off-by: Chenheli Hua <huachenheli@outlook.com> Signed-off-by: Roger Wang <hey@rogerw.io> Co-authored-by: Roger Wang <hey@rogerw.io>	2025-10-29 23:17:48 +00:00
JartX	7568a282b9	[FIXBUG] Qwen3VL hallucinations without Contiguous on Torch.SDPA (#27744 ) Signed-off-by: JartX <sagformas@epdcenter.es> Co-authored-by: Lukas Geiger <lukas.geiger94@gmail.com>	2025-10-29 16:55:35 +00:00
Roger Young	d6704dd099	Fix MiniMax-M2 rmsnorm precision and remove useless code (#27627 ) Signed-off-by: xuebi <xuebi@minimaxi.com> Co-authored-by: xuebi <xuebi@minimaxi.com>	2025-10-29 21:01:05 +08:00
Jiangyun Zhu	8df98c2161	[perf] Enable concurrent execution of "shared_experts" and "selected_experts" in qwen3-next (#27578 ) Signed-off-by: zjy0516 <riverclouds.zhu@qq.com>	2025-10-29 08:12:54 +00:00
Lukas Geiger	0d8161b075	[Model] Fix Qwen3VL and Qwen3Omni after torch.compile changes (#27705 ) Signed-off-by: Lukas Geiger <lukas.geiger94@gmail.com> Signed-off-by: Roger Wang <hey@rogerw.io> Co-authored-by: Roger Wang <hey@rogerw.io>	2025-10-29 05:28:20 +00:00
Lucas Kabela	94666612a9	[Misc][qwen2_5_vl][torch.compile] Enable `supports_torch_compile` on generic nn.Module and demonstrate speedup on Qwen Vision model (#23207 ) Signed-off-by: Lucas Kabela <lucaskabela@meta.com> Signed-off-by: Lucas Kabela <lucasakabela@gmail.com>	2025-10-28 22:36:43 +00:00
Asaf Joseph Gardin	05181cc57f	[Hybrid] Add mamba_block_size to Engine Args (#27289 ) Signed-off-by: asafg <39553475+Josephasafg@users.noreply.github.com>	2025-10-28 12:54:24 +00:00
tingtinggithub	23ad820553	fixing mm placeholder replacement issue with gemma3 (#27538 ) Signed-off-by: tingtingtang1992 <streamttt@gmail.com>	2025-10-27 14:34:01 +00:00
Yu Jiaqi	4f882be4a0	[Model] Siglip2 Model Support (#27566 ) Signed-off-by: piood <2477084691@qq.com>	2025-10-27 06:57:37 -07:00
Asaf Joseph Gardin	9273754222	[Hybrid] Added supports_mamba_prefix_caching Protocol (#27339 ) Signed-off-by: asafg <39553475+Josephasafg@users.noreply.github.com>	2025-10-27 13:05:20 +00:00
Jee Jee Li	2d631d28c6	[Doc] Slight improvement to M2 and beyond (#27554 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com> Co-authored-by: Roger Wang <hey@rogerw.io>	2025-10-27 09:02:10 +00:00
Cyrus Leung	cbd5e07a51	[Model] Use merge_by_field_config for MM models (Qwen series) (#27546 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-10-27 05:38:05 +00:00
CSWYF3634076	63b22e0dbb	[Model][Bugfix] fix ernie45 moe 300B SharedFusedMoE output tuple (#27316 ) Signed-off-by: wangyafeng <wangyafeng@baidu.com>	2025-10-26 20:53:31 -07:00
Roger Young	5980604c44	Fix MiniMax-M2 copyright (#27537 ) Signed-off-by: xuebi <xuebi@minimaxi.com> Co-authored-by: xuebi <xuebi@minimaxi.com>	2025-10-27 03:29:51 +00:00
Roger Young	720af6ab79	[Model][MiniMax-M2] Support MiniMax-M2 Model (#27535 ) Signed-off-by: xuebi <xuebi@minimaxi.com> Co-authored-by: xuebi <xuebi@minimaxi.com>	2025-10-27 00:59:11 +08:00
Yeshwanth N	71b1c8b667	[Chore]:Extract math and argparse utilities to separate modules (#27188 ) Signed-off-by: Yeshwanth Surya <yeshsurya@gmail.com> Signed-off-by: Yeshwanth N <yeshsurya@gmail.com> Signed-off-by: yeshsurya <yeshsurya@gmail.com>	2025-10-26 04:03:32 -07:00
JartX	65d2cf9511	[BUGFIX][ROCM] ViT FlashAttention on ROCm (no GFX9) and contiguous on qwen3vl ROCm TORCH_SDPA (#27190 ) Signed-off-by: JartX <sagformas@epdcenter.es> Co-authored-by: tjtanaa <tunjian.tan@embeddedllm.com>	2025-10-26 15:08:52 +08:00
Cyrus Leung	66a168a197	[CI/Build] Refactor processing tests (#27470 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Co-authored-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-10-25 16:14:30 +00:00
Isotr0py	acc78aeb88	[Bugfix] Fix interns1-vit qk norm code path (#27480 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-10-24 17:43:45 +00:00
fhl2000	284cc92275	[MISC] `cudagraph_capture_sizes` related improvements (#26016 ) Signed-off-by: fhl <2410591650@qq.com> Signed-off-by: fhl2000 <63384265+fhl2000@users.noreply.github.com> Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com> Co-authored-by: Luka Govedič <ProExpertProg@users.noreply.github.com> Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-10-24 05:11:05 -07:00
Isotr0py	42efe609ba	[MM][Bugfix] Replace `PatchEmbed`'s conv3d to linear layer (#27418 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Co-authored-by: Roger Wang <hey@rogerw.io>	2025-10-24 07:32:47 +00:00
Harry Mellor	1f9460c4c1	Fix pooling adapters for Transformers backend (#27338 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-10-23 20:23:55 -07:00
xiao-llm	70022ffc00	Granite 4.0 quark quantization support (#26944 ) Signed-off-by: Xiao YU <Xiao.YU@xilinx.com> Signed-off-by: Xiao Yu <xiao.yu.dc@outlook.com> Co-authored-by: Xiao YU <Xiao.YU@xilinx.com>	2025-10-24 02:14:03 +00:00
Yu Jiaqi	0552cfb195	[Model] Siglip Embedding Support (#27324 ) Signed-off-by: piood <2477084691@qq.com>	2025-10-23 20:19:48 +00:00
Jonathan Chen	ca76486a16	[Chore] Separate out `vllm.utils.platform_utils.py` (#27374 ) Signed-off-by: Jonathan <chenleejonathan@gmail.com>	2025-10-23 19:08:06 +00:00
wang.yuqi	3fa2c12185	[Frontend][4/N] Improve all pooling task \| Add plugin pooling task (#26973 ) Signed-off-by: wang.yuqi <noooop@126.com> Signed-off-by: Christian Pinto <christian.pinto@ibm.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com> Co-authored-by: Christian Pinto <christian.pinto@ibm.com>	2025-10-23 14:46:18 +00:00
Cyrus Leung	fe2016de2d	[CI/Build] Remove unnecessary flags from test registry (#27353 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-10-23 14:42:40 +00:00
Bradley D	570c3e1cd4	[Bugfix] Honor --mm_encoder_attn_backend when used (#27124 ) Co-authored-by: Bradley D <4551889+bradleyhd@users.noreply.github.com> Co-authored-by: Roger Wang <hey@rogerw.io>	2025-10-23 20:09:52 +08:00
tomeras91	61089465a6	[Model] Add MoE support for NemotronH (#25863 ) Signed-off-by: Tomer Asida <57313761+tomeras91@users.noreply.github.com>	2025-10-23 10:27:23 +00:00
Isotr0py	2566dca2a9	[Bugfix] Fix deepseek-ocr multi-image inference and add `merge_by_field_config=True` with tensor schema support (#27361 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-10-22 17:15:38 -07:00
Luciano Martins	e05a6754a8	[Model] Revert PR #26715 : Restore custom PaliGemma and Gemma3-MM impl… (#27309 ) Signed-off-by: Luciano Martins <lucianommartins@users.noreply.github.com> Co-authored-by: Luciano Martins <lucianommartins@users.noreply.github.com>	2025-10-22 10:05:34 -07:00
Isotr0py	db6f28d898	[Bugfix] Fix HF format InternVL large variants video processing (#27330 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-10-22 08:39:23 -07:00
Cyrus Leung	14e2f1231e	[Bugfix] Make `get_mrope_input_positions` instance methods (#27342 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-10-22 08:38:34 -07:00
Isotr0py	675aa2ec64	[Model] Upstream Deepseek-OCR model (#27247 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Signed-off-by: Roger Wang <hey@rogerw.io> Co-authored-by: Roger Wang <hey@rogerw.io>	2025-10-22 07:59:15 -07:00
Lain	09a7e6f617	[Deepseek v3.2] Remove extra logics in indexer (#26465 ) Signed-off-by: Siyuan Fu <siyuanf@nvidia.com> Signed-off-by: Daniel Campora <961215+dcampora@users.noreply.github.com> Signed-off-by: Lain <siyuanf@nvidia.com> Co-authored-by: Daniel Campora <961215+dcampora@users.noreply.github.com>	2025-10-21 23:34:03 +00:00
Alexander Matveev	344a0017c0	[Performance] Dual stream execution of "shared_experts" and "selected_experts" inside FusedMoE (#26440 ) Signed-off-by: Alexander Matveev <amatveev@redhat.com>	2025-10-21 21:38:29 +00:00
Daniel Cámpora	80e9452984	[Deepseek v3.2] Optimize top_k_per_row (#26763 ) Signed-off-by: Daniel Campora <961215+dcampora@users.noreply.github.com>	2025-10-21 08:30:07 +00:00
Roger Wang	c3a2c6ac5f	[MM][Core] Decouple ViT backend from LM backend (#27061 ) Signed-off-by: Roger Wang <hey@rogerw.io>	2025-10-21 00:30:10 -07:00
Zebing Lin	be4445072c	[Fix][Spec Decode] Fix llama4 draft loading with different quantization (#27136 ) Signed-off-by: linzebing <linzebing1995@gmail.com>	2025-10-20 23:19:00 -07:00
Benjamin Chislett	f381cf2302	[Bugfix] Fix broken MTP weight loading for FP8 KV Scales (#27227 ) Signed-off-by: Benjamin Chislett <bchislett@nvidia.com>	2025-10-20 22:51:44 -07:00
Po-Han Huang (NVIDIA)	aef368aa08	[BugFix] GPT-OSS Attention DP + MoE TP weight loading issue (#24032 ) Signed-off-by: Po-Han Huang <pohanh@nvidia.com>	2025-10-21 04:03:47 +00:00
Chen Wu	5f6cbf60d6	[Feature][Kernel]FusedMoE LoRA (#21229 ) Signed-off-by: wuchen <cntryroa@gmail.com> Signed-off-by: banjuede <lmklhc@163.com> Signed-off-by: Chen Wu <cntryroa@gmail.com> Signed-off-by: Danielle Robinson <dmmaddix@amazon.com> Signed-off-by: Jee Jee Li <pandaleefree@gmail.com> Signed-off-by: bk-201 <joy25810@foxmail.com> Co-authored-by: wuchen <wuchen@zetyun.com> Co-authored-by: Nathan Van Gheem <vangheem@gmail.com> Co-authored-by: banjuede <lmklhc@163.com> Co-authored-by: Danielle Robinson <dmmaddix@amazon.com> Co-authored-by: Jee Jee Li <pandaleefree@gmail.com> Co-authored-by: bk-201 <joy25810@foxmail.com>	2025-10-21 03:01:37 +00:00
Isotr0py	352c0c8a28	[Quantization] Automatically infer AWQ `modules_to_not_convert` field (#26909 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-10-21 01:49:28 +00:00
Eugene Khvedchenya	e93ff6c8b9	Nemotron Nano V2 VL + EVS Video Support (#27107 ) Signed-off-by: Eugene Khvedchenia <ekhvedchenia@nvidia.com> Signed-off-by: Natan Bagrov <nbagrov@nvidia.com> Signed-off-by: Roger Wang <hey@rogerw.io> Co-authored-by: Natan Bagrov <nbagrov@nvidia.com> Co-authored-by: Roger Wang <hey@rogerw.io>	2025-10-20 22:19:11 +08:00
Yi Zhang	f32bf7582e	[Model][VLM] Support Bee-8B Model (#27012 ) Signed-off-by: uyzhang <yi.zhang.4096@gmail.com> Signed-off-by: Yi Zhang <zhangyi970819@gmail.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com> Co-authored-by: Roger Wang <hey@rogerw.io>	2025-10-20 02:31:26 +00:00
Cyrus Leung	d31f7844f8	[Misc] Move utils to avoid conflicts with stdlib, and move tests (#27169 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-10-19 05:20:55 -07:00
Lucas Wilkinson	c2bba69065	[BugFix] Disable fp8 kv-cache by default for DeepSeek V3.2 (#27121 ) Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com> Signed-off-by: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>	2025-10-18 22:05:23 +00:00
Isotr0py	6ac5e06f7c	[Chore] Clean up pytorch helper functions in `vllm.utils` (#26908 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Signed-off-by: isotr0py <2037008807@qq.com>	2025-10-18 09:48:22 -07:00
Lukas Geiger	5c2acb270a	[Models][QwenVL] Remove unnecessary `.contiguous()` calls (#27106 ) Signed-off-by: Lukas Geiger <lukas.geiger94@gmail.com>	2025-10-18 07:05:05 -07:00
Nicolò Lucchesi	b26b70bec4	[Misc] Refactor `get_kv_cache_spec` into `AttentionLayerBase` (#26587 ) Signed-off-by: NickLucche <nlucches@redhat.com>	2025-10-18 13:51:21 +00:00

1 2 3 4 5 ...

1760 Commits