biondizzle/vllm - vllm - Gitea: Git with a cup of tea

Author	SHA1	Message	Date
Jakub Zakrzewski	c8b678e53e	[Model] Add support for nvidia/llama-nemotron-rerank-vl-1b-v2 (#35735 ) Signed-off-by: Jakub Zakrzewski <jzakrzewski@nvidia.com>	2026-03-03 08:32:14 +08:00
CSWYF3634076	2a9e3347e9	[BugFix][Model]Fix the garbled code in Ernie4.5-VL caused by fast_moe_cold_start (#35587 ) Signed-off-by: wangyafeng <wangyafeng@baidu.com>	2026-03-02 18:56:33 +00:00
Wentao Ye	062b789632	[Bug] Fix outdated links in source code (#35314 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2026-02-27 03:50:46 +00:00
Jakub Zakrzewski	111d869069	[Model] Add nvidia/llama-nemotron-embed-vl-1b-v2 multimodal embedding model (#35297 ) Signed-off-by: Jakub Zakrzewski <jzakrzewski@nvidia.com>	2026-02-26 14:17:17 +00:00
Wei Zhao	ea5f903f80	Bump Flashinfer Version and Re-enable DeepSeek NVFP4 AR+Norm Fusion (#34899 ) Signed-off-by: wzhao18 <wzhao18.sz@gmail.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>	2026-02-20 13:37:31 -08:00
Luka Govedič	23d825aba1	[torch.compile] Disable ar-rms fusion for ds3-fp4 & DP, fix CI test (#34392 ) Signed-off-by: Luka Govedič <lgovedic@redhat.com> Signed-off-by: Luka Govedič <ProExpertProg@users.noreply.github.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>	2026-02-15 06:33:57 -08:00
Harry Huang	c027541eaf	[Hybrid] Enable spec decoding in mamba cache align mode (#33705 ) Signed-off-by: huanghaoyan.hhy <huanghaoyan.hhy@alibaba-inc.com>	2026-02-13 13:02:28 -08:00
Ilya Boytsov	071d863e20	Extend ColBERT support to non-standard BERT backbones (#34170 ) Signed-off-by: Ilya Boytsov <ilya.boytsov@aleph-alpha.com>	2026-02-13 09:53:09 +00:00
Roger Wang	eea3024f43	[Bugfix] Fix mamba state dtype setting for Qwen3-Next and Qwen3.5 (#34489 ) Signed-off-by: Roger Wang <hey@rogerw.io>	2026-02-12 22:48:42 -08:00
chengchengpei	965525667b	Onboard voyage-4-nano (#33720 ) Signed-off-by: Chengcheng Pei <chengchengpei@outlook.com> Signed-off-by: chengchengpei <5881383+chengchengpei@users.noreply.github.com> Co-authored-by: chengchengpei <5881383+chengchengpei@users.noreply.github.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>	2026-02-06 06:23:34 +00:00
Cyrus Leung	92924b2ddd	[Deprecation] Remove deprecated items related to pooling (#33477 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2026-01-31 08:44:40 -08:00
danielafrimi	83fb2d09e8	Support heterogeneous NemotronHPuzzle model (#32549 ) Signed-off-by: <dafrimi@nvidia.com> Signed-off-by: Daniel Afrimi <dafrimi@nvidia.com> Signed-off-by: root <dafrimi@nvidia.com>	2026-01-27 10:55:54 -05:00
Harry Huang	5206e5e28c	[V1][Hybrid] Mamba Prefix Caching with align mode (#30877 ) Signed-off-by: huanghaoyan.hhy <huanghaoyan.hhy@alibaba-inc.com> Signed-off-by: Chen Zhang <zhangch99@outlook.com> Co-authored-by: Chen Zhang <zhangch99@outlook.com>	2026-01-23 09:56:48 -08:00
RickyChen / 陳昭儒	8020a60402	[Bugfix] Fix Qwen3-VL-Reranker model loading for sequence classification (#32089 ) Signed-off-by: rickychen-infinirc <ricky.chen@infinirc.com> Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Co-authored-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2026-01-10 12:40:09 -08:00
Cyrus Leung	583a90e005	[Refactor] Separate sequence and token pooling types (#32026 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2026-01-10 04:53:24 +00:00
Matthew Bonanni	2612ba9285	[1/N][Attention] Restructure attention: move files (#31916 ) Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>	2026-01-09 13:10:24 -08:00
Isotr0py	eac3b96ec0	[Models] Allow converting Qwen3-VL into Reranker model (#31890 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2026-01-08 08:10:15 +00:00
wang.yuqi	911d38ed99	[Model] Let more models to support the score template. (#31335 ) Signed-off-by: wang.yuqi <yuqi.wang@daocloud.io> Signed-off-by: wang.yuqi <noooop@126.com> Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com>	2026-01-05 11:54:26 +00:00
wang.yuqi	8be6432bda	[CI Failure] Fix NomicBert max_model_len validation (#31662 ) Signed-off-by: wang.yuqi <yuqi.wang@daocloud.io>	2026-01-05 11:06:52 +08:00
wang.yuqi	bd89ce16d2	[Model] Introduce verify_and_update_model_config for VerifyAndUpdateConfig. (#31131 ) Signed-off-by: wang.yuqi <yuqi.wang@daocloud.io> Signed-off-by: wang.yuqi <noooop@126.com>	2025-12-24 09:54:57 +00:00
Jakub Zakrzewski	23daef548d	[Frontend] Support using chat template as custom score template for reranking models (#30550 ) Signed-off-by: Jakub Zakrzewski <jzakrzewski@nvidia.com> Signed-off-by: wang.yuqi <yuqi.wang@daocloud.io> Signed-off-by: wang.yuqi <noooop@126.com> Co-authored-by: wang.yuqi <yuqi.wang@daocloud.io>	2025-12-23 11:19:16 +00:00
Kevin McKay	14c3e6ade3	[Misc] Fix spelling typos in model comments (#31117 ) Signed-off-by: c0de128 <kevin.mckay@outlook.com>	2025-12-21 21:14:14 -08:00
Asaf Joseph Gardin	a9e15c21ef	[Mamba] Removed disable cascade attn in MambaModelConfig (#30712 ) Signed-off-by: asafg <39553475+Josephasafg@users.noreply.github.com>	2025-12-17 08:48:53 +00:00
Roberto L. Castro	4fa7ce46f3	[Feature] Add SM103 (Blackwell Ultra) Support to vLLM (#30484 ) Signed-off-by: LopezCastroRoberto <robertol.c510@gmail.com> Signed-off-by: Roberto L. Castro <38211239+LopezCastroRoberto@users.noreply.github.com> Co-authored-by: youkaichao <youkaichao@gmail.com>	2025-12-12 19:34:23 -08:00
Harry Mellor	cf3eacfe58	Standardise `get_rope` to use `rope_parameters["partial_rotary_factor"]`, not `rotary_dim` (#30389 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-12-11 20:45:23 +00:00
Harry Mellor	93db3256a4	Give pooling examples better names (#30488 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-12-11 16:22:58 +00:00
Matthew Bonanni	66e674cdd5	[Attention][UX][1/N] Add AttentionConfig and change attention env vars to CLI arguments (#26315 ) Signed-off-by: Matthew Bonanni <mbonanni@redhat.com> Signed-off-by: Matthew Bonanni <mbonanni001@gmail.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com> Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com> Co-authored-by: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com>	2025-12-05 09:48:43 -08:00
amitz-nv	6038b1b04b	[Frontend][Model] Add 'float16' to possible mamba cache dtype values, override mamba SSM cache dtype value for NemotronH (#29978 ) Signed-off-by: amitz-nv <203509407+amitz-nv@users.noreply.github.com>	2025-12-05 00:34:33 -08:00
Harry Mellor	e10c84e06a	Access `partial_rotary_factor` from `rope_parameters` (#29966 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-12-04 18:42:49 +00:00
Yifan Qiao	48ddb02b79	[Hybrid Allocator] Support KV cache groups with different block_size (#29143 ) Signed-off-by: Yifan Qiao <yifanqiao@berkeley.edu> Co-authored-by: Chen Zhang <zhangch99@outlook.com>	2025-11-25 10:30:57 -05:00
Harry Mellor	a8b70304d6	Update `rope_scaling` to `rope_parameters` in preparation for Transformers v5 (#28542 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-11-19 09:06:36 -08:00
Mohammad Miadh Angkad	404d7a9d14	[Performance][gpt-oss] Revert gpt-oss max cudagraph size to 1024 (#28345 ) Signed-off-by: Mohammad Miadh Angkad <MAngkad.BSDSBA2027@aim.edu>	2025-11-08 15:50:10 -07:00
Chen Zhang	c765f0b443	[FlashInfer] Avoid FlashInfer block_size 16 + head_size 256 on blackwell (#27994 ) Signed-off-by: Chen Zhang <zhangch99@outlook.com>	2025-11-05 09:25:32 -08:00
wangxiyuan	428bc7bf1c	[V0 deprecation] Remove VLLM_USE_V1 usage in most modules (#27955 ) Signed-off-by: wangxiyuan <wangxiyuan1007@gmail.com>	2025-11-04 20:51:16 -08:00
Asaf Joseph Gardin	00b31a36a2	[V1] [Hybrid] Mamba1 Automatic Prefix Caching (#26377 ) Signed-off-by: asafg <39553475+Josephasafg@users.noreply.github.com>	2025-11-02 04:16:23 -08:00
Tyler Michael Smith	ab98f6556f	[Bugfix] Fix 2 precommit issues - (mamba_block_size, kv_cache_config) (#27811 ) Signed-off-by: Tyler Michael Smith <tlrmchlsmth@gmail.com> Signed-off-by: Tyler Michael Smith <tysmith@redhat.com> Co-authored-by: Nick Hill <nhill@redhat.com>	2025-10-30 11:52:18 -07:00
Zhiyuan Li	4e68cc9b6a	[Model] Introduce Kimi Linear to vLLM (#27809 ) Signed-off-by: lizhiyuan <lizhiyuan@moonshot.cn> Signed-off-by: Zhiyuan Li <uniartisan2017@gmail.com>	2025-10-30 21:02:27 +08:00
wang.yuqi	4464723f22	[Frontend][Doc][5/N] Improve all pooling task \| Polish encode (pooling) api & Document. (#25524 ) Signed-off-by: wang.yuqi <noooop@126.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com> Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com>	2025-10-30 12:13:05 +00:00
Asaf Joseph Gardin	05181cc57f	[Hybrid] Add mamba_block_size to Engine Args (#27289 ) Signed-off-by: asafg <39553475+Josephasafg@users.noreply.github.com>	2025-10-28 12:54:24 +00:00
Asaf Joseph Gardin	9273754222	[Hybrid] Added supports_mamba_prefix_caching Protocol (#27339 ) Signed-off-by: asafg <39553475+Josephasafg@users.noreply.github.com>	2025-10-27 13:05:20 +00:00
Yeshwanth N	71b1c8b667	[Chore]:Extract math and argparse utilities to separate modules (#27188 ) Signed-off-by: Yeshwanth Surya <yeshsurya@gmail.com> Signed-off-by: Yeshwanth N <yeshsurya@gmail.com> Signed-off-by: yeshsurya <yeshsurya@gmail.com>	2025-10-26 04:03:32 -07:00
fhl2000	284cc92275	[MISC] `cudagraph_capture_sizes` related improvements (#26016 ) Signed-off-by: fhl <2410591650@qq.com> Signed-off-by: fhl2000 <63384265+fhl2000@users.noreply.github.com> Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com> Co-authored-by: Luka Govedič <ProExpertProg@users.noreply.github.com> Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-10-24 05:11:05 -07:00
Lucas Wilkinson	c2bba69065	[BugFix] Disable fp8 kv-cache by default for DeepSeek V3.2 (#27121 ) Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com> Signed-off-by: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>	2025-10-18 22:05:23 +00:00
Isotr0py	6ac5e06f7c	[Chore] Clean up pytorch helper functions in `vllm.utils` (#26908 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Signed-off-by: isotr0py <2037008807@qq.com>	2025-10-18 09:48:22 -07:00
Isotr0py	8e67b2557a	[Bugfix] Fix out of bound index issue for Jina-embedding-v3 RoPE with cuda graph (#26687 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-10-13 03:21:48 -07:00
Zhiyuan Li	d24cf322e1	[Hybrid]: Decouple Kernel Block Size from KV Page Size (#24486 ) Signed-off-by: lizhiyuan <uniartisan2017@gmail.com> Signed-off-by: Zhiyuan Li <uniartisan2017@gmail.com>	2025-10-08 23:43:39 -07:00
Harry Mellor	d6953beb91	Convert formatting to use `ruff` instead of `yapf` + `isort` (#26247 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-10-05 07:06:22 -07:00
Thomas Parnell	ed3aeb25a4	[V1] [Hybrid] Remove code to override default CUDA graph configuration (#26226 ) Signed-off-by: Thomas Parnell <tpa@zurich.ibm.com>	2025-10-04 13:47:48 +00:00
Stan Wozniak	ea507c3a93	[V1] [Hybrid] Mamba2 Automatic Prefix Caching (#25752 ) Signed-off-by: Stanislaw Wozniak <stw@zurich.ibm.com> Signed-off-by: Thomas Ortner <boh@zurich.ibm.com> Signed-off-by: Thomas Parnell <tpa@zurich.ibm.com> Co-authored-by: Thomas Ortner <boh@zurich.ibm.com> Co-authored-by: Thomas Parnell <tpa@zurich.ibm.com>	2025-10-04 06:34:22 +02:00
Lucas Wilkinson	8d7da92fd7	[BugFix] Fix default kv-cache-dtype default for DeepseekV3.2 (#25988 ) Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com>	2025-09-30 21:58:31 -07:00

1 2

73 Commits