biondizzle/vllm - vllm - Gitea: Git with a cup of tea

Author	SHA1	Message	Date
Raghavan	c8c3935b70	[Bugfix][Model] Fix FP8 k_scale/v_scale not loaded for Qwen3-MoE (#35656 ) Signed-off-by: raghavan <oneraghavan@gmail.com>	2026-03-04 13:15:38 +00:00
Nathan Price	36bf213181	[Bugfix] Add missing dynamic_arg_dims for Qwen3-ASR torch.compile (#35869 ) Signed-off-by: Nathan Price <nathan@abridge.com> Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Co-authored-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2026-03-04 08:29:01 +00:00
Andrii Skliar	5d199ac8f2	Support Audio Extraction from MP4 Video for Nemotron Nano VL (#35539 ) Signed-off-by: Netanel Haber <58652339+netanel-haber@users.noreply.github.com> Signed-off-by: Andrii Skliar <askliar@nvidia.com> Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com> Signed-off-by: Matthew Bonanni <mbonanni@redhat.com> Signed-off-by: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com> Signed-off-by: wangxiyuan <wangxiyuan1007@gmail.com> Signed-off-by: Andrii <askliar@nvidia.com> Co-authored-by: Netanel Haber <58652339+netanel-haber@users.noreply.github.com> Co-authored-by: Andrii Skliar <askliar@oci-nrt-cs-001-vscode-01.cm.cluster> Co-authored-by: Andrii <askliar@nvidia.com> Co-authored-by: root <root@pool0-03748.cm.cluster> Co-authored-by: Roger Wang <hey@rogerw.io> Co-authored-by: root <root@pool0-02416.cm.cluster> Co-authored-by: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com> Co-authored-by: Matthew Bonanni <mbonanni@redhat.com> Co-authored-by: Tyler Michael Smith <tyler@neuralmagic.com> Co-authored-by: wangxiyuan <wangxiyuan1007@gmail.com> Co-authored-by: root <root@pool0-04880.cm.cluster>	2026-03-03 23:20:33 -08:00
Andreas Karatzas	edba15045a	[Bugfix] Guard mm_token_type_ids kwarg in get_mrope_input_positions (#35711 ) Signed-off-by: Andreas Karatzas <akaratza@amd.com>	2026-03-04 04:12:51 +00:00
Isotr0py	6e9f21e8a2	[Chore] Remove debug code in model implementation (#35883 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2026-03-03 19:50:58 -08:00
AllenDou	c1d963403c	[model] support FireRedASR2 (#35727 ) Signed-off-by: zixiao <shunli.dsl@alibaba-inc.com> Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Co-authored-by: zixiao <shunli.dsl@alibaba-inc.com> Co-authored-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2026-03-03 19:41:30 -08:00
Shanshan Shen	77e6dcbbfa	[PluggableLayer][MM] Add PluggableLayer for RelPosAttention (#33753 ) Signed-off-by: shen-shanshan <467638484@qq.com>	2026-03-03 19:41:27 -08:00
William Zhang	70c73df69e	[Bugfix] Fix EVS implementation for Qwen3 VL (#33607 ) Signed-off-by: 2ez4bz <133824995+2ez4bz@users.noreply.github.com>	2026-03-04 02:18:11 +00:00
Isotr0py	8ea8ba275e	[V0 deprecation] Remove Swin model (#35821 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2026-03-02 20:03:41 -08:00
Jakub Zakrzewski	c8b678e53e	[Model] Add support for nvidia/llama-nemotron-rerank-vl-1b-v2 (#35735 ) Signed-off-by: Jakub Zakrzewski <jzakrzewski@nvidia.com>	2026-03-03 08:32:14 +08:00
Robert Shaw	9319044ee9	[MoE][Perf] Wrap DSV3 QKVAProj GEMM in custom op for torch.compile (#35751 ) Signed-off-by: Robert Shaw <robshaw@redhat.com> Co-authored-by: Robert Shaw <robshaw@redhat.com>	2026-03-02 23:03:49 +00:00
Ye (Charlotte) Qi	fa6a6be519	[Bugfix] Fix missing sequence_lengths in qwen3_omni_moe_thinker (#35741 ) Signed-off-by: Ye (Charlotte) Qi <yeq@meta.com>	2026-03-02 21:11:56 +00:00
Fynn Schmitt-Ulms	9433acb8df	[Spec Decode] Add hidden states extraction system (#33736 ) Signed-off-by: Fynn Schmitt-Ulms <fschmitt@redhat.com>	2026-03-02 14:29:09 -05:00
CSWYF3634076	2a9e3347e9	[BugFix][Model]Fix the garbled code in Ernie4.5-VL caused by fast_moe_cold_start (#35587 ) Signed-off-by: wangyafeng <wangyafeng@baidu.com>	2026-03-02 18:56:33 +00:00
lin-shh	a9ec392c86	Fix typo: implictly -> implicitly in isaac.py docstring (#35646 )	2026-02-28 23:34:37 -08:00
lailoo	afd089f231	[Bugfix][Model] Fix Qwen3.5/Qwen3Next ignoring --dtype flag on older GPUs (#35617 )	2026-03-01 03:27:37 +00:00
Wentao Ye	e113a30113	[Deprecation] Deprecate code in 0.17 as scheduled (#35441 ) Signed-off-by: yewentao256 <zhyanwentao@126.com> Signed-off-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>	2026-02-28 17:32:37 +00:00
cwazai	63d7972f13	Fix Qwen3_5MTP packed_modules_mapping for gate_up_proj (#35581 )	2026-02-28 14:50:55 +00:00
Matthew Bonanni	2562e0271e	[MTP] Validate that MTP weights are actually loaded (#35548 ) Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>	2026-02-28 12:27:40 +08:00
Jakub Zakrzewski	1f3dbd95fd	[Bugfix][Model] Fix gpt-oss batch invariance (#35404 ) Signed-off-by: Jakub Zakrzewski <jzakrzewski@nvidia.com>	2026-02-27 20:41:24 +00:00
SteadfastAsArt	2decec9856	[Transformers backend] Ignore MTP weights when num_nextn_predict_layers=0 (#34888 ) Signed-off-by: SteadfastAsArt <695488173@qq.com> Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com> Co-authored-by: Claude Opus 4.6 <noreply@anthropic.com> Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2026-02-27 19:39:23 +00:00
Raushan Turganbay	fd6de37fca	[BugFix] Fix 3D rope in transformers backend (#35097 ) Signed-off-by: raushan <raushan@huggingface.co> Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2026-02-27 18:34:49 +00:00
Netanel Haber	c8aca0c9e1	Support parakeet as audio encoder for nemotron-nano-vl (#35100 ) Signed-off-by: Netanel Haber <58652339+netanel-haber@users.noreply.github.com> Co-authored-by: Roger Wang <hey@rogerw.io>	2026-02-27 11:07:38 -07:00
fort726	905d76b51d	[Model] Add huggingface skt/A.X-K1 model (#32407 ) Signed-off-by: Sungwan(Alex) Kim <sw0726.kim@sktelecom.com> Signed-off-by: fort726 <38447663+fort726@users.noreply.github.com> Co-authored-by: Sungwan(Alex) Kim <sw0726.kim@sktelecom.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com> Co-authored-by: TJian <tunjian.tan@embeddedllm.com>	2026-02-27 09:26:02 -08:00
Yueqian Lin	e8249378e4	[Bugfix] Fix check_interleaved_audio_video false positive for batched non-interleaved requests (#35487 ) Signed-off-by: linyueqian <linyueqian@outlook.com> Co-authored-by: Roger Wang <hey@rogerw.io>	2026-02-27 06:48:25 -08:00
Max Hu	9c3fe9936b	Flashinfer cuDNN backend for Qwen3 VL ViT attention (#34580 ) Signed-off-by: Max Hu <maxhu@nvidia.com> Signed-off-by: Max Hu <hyoung2991@gmail.com> Co-authored-by: Max Hu <maxhu@nvidia.com> Co-authored-by: Shang Wang <shangw@nvidia.com>	2026-02-27 20:20:23 +08:00
Wentao Ye	062b789632	[Bug] Fix outdated links in source code (#35314 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2026-02-27 03:50:46 +00:00
Jee Jee Li	1e5ad9b74f	[Bugfix] Fix Qwen3NextForCausalLM packed_modules_mapping (#35413 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2026-02-26 19:46:30 -08:00
roikoren755	38c498b8e3	[Performance] Cublas Bf16 Gate with Fp32 Output (#35121 ) Signed-off-by: Roi Koren <roik@nvidia.com>	2026-02-26 16:51:28 -08:00
danielafrimi	832a780f3a	Nemotron: use per-layer config in NemotronHMLPDecoderLayer for heterogeneous models (#35396 ) Signed-off-by: dafrimi <dafrimi@nvidia.com>	2026-02-26 16:55:19 -05:00
Wentao Ye	05972ea7e5	[Refactor] Remove dead or duplicate func utils or variables (#35318 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2026-02-26 10:57:56 -05:00
Jakub Zakrzewski	111d869069	[Model] Add nvidia/llama-nemotron-embed-vl-1b-v2 multimodal embedding model (#35297 ) Signed-off-by: Jakub Zakrzewski <jzakrzewski@nvidia.com>	2026-02-26 14:17:17 +00:00
Cyrus Leung	845ee348ef	[Misc] Standardize handling of `mm_processor_kwargs.size` (#35284 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2026-02-26 13:05:46 +00:00
Yueqian Lin	c0615a296d	[Bugfix] Fix Qwen2.5-Omni and Qwen3-Omni mixed-modality embed regression (#35368 ) Signed-off-by: linyueqian <linyueqian@outlook.com>	2026-02-26 11:58:23 +00:00
Jiangyun Zhu	ab87f85231	[Model] Ring 2.5 (#35102 ) Signed-off-by: zjy0516 <riverclouds.zhu@qq.com>	2026-02-26 02:17:11 -08:00
Ming Yang	6831650c40	[offloader] v2: Hide weight onloading latency via prefetching (#29941 ) Signed-off-by: Ming Yang <minos.future@gmail.com> Signed-off-by: Michael Goin <mgoin64@gmail.com> Co-authored-by: Michael Goin <mgoin64@gmail.com>	2026-02-25 17:20:59 -08:00
Benjamin Chislett	f5972a872f	[Model][Spec Decode] Nemotron-H MTP and Mamba Speculative Decoding Support (#33726 ) Signed-off-by: Shahar Mor <smor@nvidia.com> Signed-off-by: Benjamin Chislett <bchislett@nvidia.com> Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com> Co-authored-by: Shahar Mor <smor@nvidia.com> Co-authored-by: Roi Koren <roik@nvidia.com> Co-authored-by: Lucas Wilkinson <lwilkins@redhat.com>	2026-02-24 09:49:56 -08:00
Harry Mellor	c38b8d5a31	Remove `padding_index` from models that don't use it for better Transformers v5 compatibility (#35189 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2026-02-24 08:04:46 -08:00
Dor Huri	012dee9233	[Feature] Add LoRA tower/connector support for Llama 4 Vision (mllama4) (#35147 ) Signed-off-by: dorhuri123 <dor.huri1@live.biu.ac.il> Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>	2026-02-24 04:10:32 -08:00
Tugsbayasgalan Manlaibaatar	f1c664545b	Make voxtral compile friendly (#33959 ) Signed-off-by: Tugsbayasgalan Manlaibaatar <tmanlaibaatar@fb.com> Co-authored-by: Nicolò Lucchesi <nlucches@redhat.com>	2026-02-24 09:33:35 +01:00
Vadim Gimpelson	33a0d43c71	[BUGFIX][Qwen3.5] Hardcode `mlp.gate` as not quantizable (#35156 ) Signed-off-by: Vadim Gimpelson <vadim.gimpelson@gmail.com>	2026-02-23 19:42:24 -08:00
Cyrus Leung	392645454b	[Refactor] Decouple TimingContext from InputProcessingContext (#35083 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2026-02-23 14:15:50 +00:00
Eldar Kurtić	1e8438a89a	[Llama4,CI] Bring back Llama-4 bug fixes, and also fix Maverick tests (#35033 ) Signed-off-by: Eldar Kurtic <you@example.com> Co-authored-by: Eldar Kurtic <you@example.com>	2026-02-23 09:04:34 -05:00
Robert Shaw	8435b2e049	[ModelBash][DSV3] Add TRTLLM DSV3 Router GEMM kernel (6% B1 Speedup) (#34302 ) Signed-off-by: Robert Shaw <robshaw@redhat.com> Co-authored-by: Robert Shaw <robshaw@redhat.com>	2026-02-23 14:02:26 +00:00
Wentao Ye	7f40e9e516	[Refactor] Remove dead private func `_fp8_perm` and `_extract_mask_for_item` (#35068 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2026-02-23 05:05:20 -08:00
Harry Mellor	103e614b14	Fix pipeline parallel with embed scaling in the Transformers modelling backend (#35094 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2026-02-23 05:04:47 -08:00
Gabe Goodhart	e631f8e78e	fix: Apply embedding_multiplier to inputs_embeds (#34813 ) Signed-off-by: Gabe Goodhart <ghart@us.ibm.com> Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>	2026-02-23 00:42:46 -08:00
Cyrus Leung	987506bca6	[Refactor] Simplify dummy data generation (#35025 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2026-02-22 20:55:27 -08:00
qizixi	2bcf71b9c0	[Spec Decode] Reduce TP communication for speculative decoding draft token generation (#34049 ) Signed-off-by: qizixi <qizixi@meta.com> Co-authored-by: Lu Fang <30275821+houseroad@users.noreply.github.com>	2026-02-22 14:59:16 -08:00
tacos8me	b7892a3bef	[Model] Add NVFP4 quantization support for Step3.5-Flash (#34478 ) Signed-off-by: tacos8me <ian@cloudhabit.com> Co-authored-by: Claude Opus 4.6 <noreply@anthropic.com> Co-authored-by: Michael Goin <mgoin64@gmail.com>	2026-02-22 12:30:46 -07:00

1 2 3 4 5 ...

2351 Commits