biondizzle/vllm - vllm - Gitea: Git with a cup of tea

Author	SHA1	Message	Date
shaharmor98	4bc913aeec	Feat/add nemotron nano v3 tests (#33345 )	2026-02-03 08:52:49 -05:00
zxy	a3acfa1071	[Models] Intern-S1-Pro (#33636 ) Signed-off-by: zxy <zhou0493@e.ntu.edu.sg> Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Co-authored-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2026-02-03 05:49:45 -08:00
Harry Mellor	f6af34626d	Fix offline test for Transformers v5 (#33682 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2026-02-03 12:07:24 +00:00
Cyrus Leung	83449a5ff0	[Refactor] Clean up pooling serial utils (#33665 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2026-02-03 10:29:18 +00:00
Isotr0py	32e84fa1ff	[CI/Build] Investigate torchrun distributed tests hanging issue (#33650 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2026-02-03 15:49:17 +08:00
杨朱 · Kiki	b95cc5014d	[Misc] Remove deprecated VLLM_ALL2ALL_BACKEND environment variable (#33535 ) Signed-off-by: carlory <baofa.fan@daocloud.io> Co-authored-by: Claude Opus 4.5 <noreply@anthropic.com>	2026-02-03 15:01:59 +08:00
Daniel Mescheder	4c4b6f7a97	[Frontend] Add sampling parameters to Responses API (#32609 ) Signed-off-by: Daniel Mescheder <dmesch@amazon.com> Co-authored-by: Daniel Mescheder <dmesch@amazon.com>	2026-02-03 13:51:10 +08:00
Patrick von Platen	5019c59dd2	[Voxtral Realtime] Introduce global log mel max (#33574 ) Signed-off-by: Patrick von Platen <patrick.v.platen@gmail.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>	2026-02-02 17:01:47 -05:00
Vasiliy Kuznetsov	0130223bd9	fix memory for online fp8 quantization with streaming weight load (#31914 ) Signed-off-by: vasiliy <vasiliy@fb.com>	2026-02-02 14:17:42 -05:00
yugong333	ffe1fc7a28	Reduce the kernel overhead when num of active loras is smaller than max loras. Multiple cuda graphs are captured for each num of active-loras. (#32005 ) Signed-off-by: Yu Gong <yu3.gong@gmail.com>	2026-02-02 12:30:06 -05:00
Harry Mellor	6141ebe0dd	Remove incorrect tokenizer info test (#33565 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2026-02-02 17:11:44 +00:00
Matthew Bonanni	9f8cb81b44	[CI] Add DeepSeek V3.2 nightly eval (#33566 ) Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>	2026-02-02 16:10:02 +00:00
shanjiaz	d95b4be47a	move spec decode slow test to test_areas.yaml (#33365 ) Signed-off-by: shanjiaz <zsjwpianpian@gmail.com>	2026-02-02 06:28:36 -08:00
Isotr0py	4061dcf4c5	[Bugfix] Enable Kimi k25 processor test (#33562 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2026-02-02 14:25:25 +00:00
danielafrimi	0aca8b8c62	[MoE] Enable Shared/Routed Overlap For Latent MoE (Nemotron-H) (#32790 ) Signed-off-by: dafrimi <dafrimi@nvidia.com>	2026-02-02 09:18:50 -05:00
Nicolò Lucchesi	528b3076af	[CI][Bugfix] Fix flaky `tests/v1/kv_connector/unit/test_multi_connector.py::test_multi_example_connector_consistency` (#33555 ) Signed-off-by: NickLucche <nlucches@redhat.com>	2026-02-02 03:01:29 -08:00
Cyrus Leung	a502831d36	[Chore] Remove redundant input parsing methods (#33542 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2026-02-02 10:50:47 +00:00
RED	808dd87b30	[Model] Support DeepSeek-OCR-2 (#33165 ) Signed-off-by: liuli <ll407707@alibaba-inc.com> Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Co-authored-by: liuli <ll407707@alibaba-inc.com> Co-authored-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2026-02-02 06:24:10 +00:00
jack	7c036432fc	[Bugfix] GLM-4 tool parser: incremental string streaming (#33218 ) Signed-off-by: QwertyJack <7554089+QwertyJack@users.noreply.github.com> Co-authored-by: QwertyJack <7554089+QwertyJack@users.noreply.github.com>	2026-02-02 11:13:31 +08:00
Robert Shaw	318b120766	[Nightly CI] Remove CT Model (#33530 ) Signed-off-by: Robert Shaw <robshaw@redhat.com> Co-authored-by: Robert Shaw <robshaw@redhat.com>	2026-02-01 19:09:09 -08:00
csy0225	c3b40dc3e7	[Models] Step-3.5-Flash (#33523 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com> Co-authored-by: i-zhangmingming <i-zhangmingming@stepfun.com> Co-authored-by: xiewuxun <xiewuxun@stepfun.com> Co-authored-by: zetaohong <i-hongzetao@stepfun.com> Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>	2026-02-02 10:21:18 +08:00
Yifan Qiao	a01ef3fa51	[Fix] prefix cache hit rate == 0 bug with gpt-oss style models (#33524 ) Signed-off-by: Yifan Qiao <yifanqiao@berkeley.edu>	2026-02-02 01:59:58 +00:00
Runkai Tao	7320ca3942	Add unpermute-aware fused MoE LoRA path (#32655 ) Signed-off-by: Runkai Tao <rt572@physics.rutgers.edu>	2026-02-02 09:46:09 +08:00
Roy Wang	63c0889416	[Misc] Fix flashinfer related tests (#33462 ) Signed-off-by: esmeetu <jasonailu87@gmail.com>	2026-01-31 16:10:24 -05:00
Cyrus Leung	88c3e114d8	[Refactor] Move MM data parsing outside processor (#33408 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2026-01-31 16:46:14 +00:00
jma99_2333	22d9a056d5	Support clear mm and encoder cache (#33452 ) Signed-off-by: Roger Wang <hey@rogerw.io> Co-authored-by: Roger Wang <hey@rogerw.io>	2026-01-31 15:22:25 +00:00
ℍ𝕠𝕝𝕝𝕠𝕨 𝕄𝕒𝕟	13b842f271	[BugFix][Router Replay] Capture Logical Experts with EPLB (#33013 ) Signed-off-by: Hollow Man <hollowman@opensuse.org>	2026-01-31 10:12:17 -05:00
Luka Govedič	15f40b20aa	[fix][torch.compile] Fix cold-start compilation time increase by adding kv cache update to splitting ops (#33441 ) Signed-off-by: Luka Govedič <lgovedic@redhat.com> Co-authored-by: Richard Zou <zou3519@gmail.com>	2026-01-31 06:48:34 -08:00
Angela Yi	608b556507	[ez] Add structured torch.compile logs (#33213 ) Signed-off-by: angelayi <yiangela7@gmail.com>	2026-01-31 21:00:54 +08:00
Cyrus Leung	f0a1c8453a	[Frontend] Use new Renderer for Completions and Tokenize API (#32863 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2026-01-31 04:51:15 -08:00
Yanan Cao	d5c41db35b	[Kernel] [Helion] [3/N] Helion kernel registry (#33203 ) Signed-off-by: Yanan Cao <gmagogsfm@gmail.com>	2026-01-31 15:38:46 +08:00
Dimitrios Bariamis	f0bca83ee4	Add support for Mistral Large 3 inference with Flashinfer MoE (#33174 ) Signed-off-by: Dimitrios Bariamis <12195802+dbari@users.noreply.github.com> Co-authored-by: Dimitrios Bariamis <12195802+dbari@users.noreply.github.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>	2026-01-30 22:48:27 -08:00
Yanan Cao	8ecd213c0b	[Kernel] [Helion] [2/N] Helion kernel wrapper (#32964 ) Signed-off-by: Yanan Cao <gmagogsfm@gmail.com>	2026-01-31 12:53:01 +08:00
Patrick von Platen	15e0bb9c42	[Streaming -> Realtime] Rename all voxtral related classes, fn, files (#33415 ) Signed-off-by: Patrick von Platen <patrick.v.platen@gmail.com>	2026-01-31 04:49:00 +00:00
Micah Williamson	6c64c41b4a	[ROCm][CI] Force max_num_seqs=1 on ROCm In test_sharded_state_loader to reduce flakiness (#33277 ) Signed-off-by: Micah Williamson <micah.williamson@amd.com>	2026-01-31 12:28:29 +08:00
Michael Goin	29fba76781	[UX] Use gguf `repo_id:quant_type` syntax for examples and docs (#33371 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2026-01-31 12:14:54 +08:00
Nick Hill	876a16f4fb	[ModelRunner V2] Fix spec decoding + logprobs (#33391 ) Signed-off-by: Nick Hill <nickhill123@gmail.com>	2026-01-31 03:33:26 +00:00
Matthew Bonanni	aaa901ad55	[Attention] Move MLA `forward` from backend to layer (#33284 ) Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>	2026-01-30 19:30:00 -08:00
Gregory Shtrasberg	31aedfe7d6	[Bugfix][ROCm] Fixing the skinny gemm dispatch logic from #32831 (#33366 ) Signed-off-by: Gregory Shtrasberg <Gregory.Shtrasberg@amd.com>	2026-01-30 19:05:23 -06:00
Michael Goin	67ebaff528	Refactor NVFP4 Linear utils for ModelOpt and CT (#33201 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2026-01-30 16:37:42 -08:00
Pavani Majety	c3a9752b0c	[Hardware][SM100] Add TRTLLM Kernel for INT4 W4A16 Kernel. (#32437 ) Signed-off-by: Pavani Majety <pmajety@nvidia.com>	2026-01-30 10:30:46 -08:00
Yanan Cao	6c1f9e4c18	[Kernel] [Helion] [1/N] Add Helion ConfigManager (#32740 ) Signed-off-by: Yanan Cao <gmagogsfm@gmail.com>	2026-01-30 12:19:19 -05:00
Harry Mellor	67239c4c42	Fix encoder-decoder model disabling mm processor cache (#33236 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2026-01-30 16:30:10 +00:00
Nicolò Lucchesi	8ece60768f	[CI] Qwen3-ASR transcriptios tests (#33414 ) Signed-off-by: NickLucche <nlucches@redhat.com>	2026-01-30 16:17:56 +00:00
Kyle Sayers	f857a03f6b	[QeRL] Layerwise Reloading (#32133 ) Signed-off-by: Kyle Sayers <kylesayrs@gmail.com>	2026-01-30 08:50:05 -07:00
Frank Wang	8f5d51203b	Disable Cascade Attention for Batch Invariance (#32561 ) Signed-off-by: frankwang28 <frank.wbb@hotmail.com> Signed-off-by: Frank Wang <41319051+frankwang28@users.noreply.github.com> Co-authored-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com>	2026-01-30 10:00:46 -05:00
Julien Denize	ae5b7aff2b	Improve Mistral format checks. (#33253 ) Signed-off-by: Julien Denize <julien.denize@mistral.ai> Signed-off-by: juliendenize <julien.denize@mistral.ai> Co-authored-by: Michael Goin <mgoin64@gmail.com>	2026-01-30 06:23:33 -08:00
Harry Mellor	a11bc12d53	Fix `test_moe.py` for Transformers v5 (#33413 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2026-01-30 14:03:25 +00:00
杨朱 · Kiki	cf896ae0e3	[Misc] Clean up HIDDEN_DEPRECATED_METRICS after metric removal (#33323 ) Signed-off-by: carlory <baofa.fan@daocloud.io> Co-authored-by: Claude Opus 4.5 <noreply@anthropic.com>	2026-01-30 13:31:17 +00:00
Harry Mellor	c5113f60f2	Remove deprecated `reasoning_content` message field (#33402 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2026-01-30 11:48:15 +00:00

1 2 3 4 5 ...

4336 Commits