biondizzle/vllm - vllm - Gitea: Git with a cup of tea

Author	SHA1	Message	Date
liranschour	8322d4e47f	Enable Cross layers KV cache layout at NIXL Connector V2 (#33339 ) Signed-off-by: Liran Schour <lirans@il.ibm.com> Signed-off-by: liranschour <liranschour@users.noreply.github.com> Co-authored-by: Or Ozeri <or@ozery.com> Co-authored-by: Nicolò Lucchesi <nicolo.lucchesi@gmail.com> Co-authored-by: Nicolò Lucchesi <nlucches@redhat.com>	2026-02-05 02:17:02 -08:00
Frank Wang	45f8fd6f97	[Feature] Enable `TRITON_ATTN` for Batch Invariance (#33688 ) Signed-off-by: frankwang28 <frank.wbb@hotmail.com>	2026-02-04 13:27:34 +08:00
dtc	0d6ccf68fa	[P/D] rework mooncake connector and introduce its bootstrap server (#31034 ) Signed-off-by: Tianchen Ding <dtcccc@linux.alibaba.com> Co-authored-by: Nicolò Lucchesi <nicolo.lucchesi@gmail.com>	2026-02-03 08:08:25 -08:00
Krish Gupta	2df2b3499d	Document NixlConnector backend selection via kv_connector_extra_config (#33552 ) Signed-off-by: KrxGu <krishom70@gmail.com>	2026-02-03 05:49:59 -08:00
Michael Goin	29fba76781	[UX] Use gguf `repo_id:quant_type` syntax for examples and docs (#33371 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2026-01-31 12:14:54 +08:00
Aidan Reilly	133765760b	[Docs] Adding links and intro to Speculators and LLM Compressor (#32849 ) Signed-off-by: Aidan Reilly <aireilly@redhat.com> Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com> Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2026-01-29 14:12:35 -08:00
Or Ozeri	2e8de86777	Revert "Enable Cross layers KV cache layout at NIXL Connector (#30207 )" (#33241 ) Signed-off-by: Or Ozeri <oro@il.ibm.com> Co-authored-by: Kevin H. Luu <khluu000@gmail.com>	2026-01-28 04:36:00 -08:00
Robert Shaw	247d1a32ea	[Quantization][Deprecation] Remove BitBlas (#32683 ) Signed-off-by: Robert Shaw <robshaw@redhat.com> Signed-off-by: Robert Shaw <114415538+robertgshaw2-redhat@users.noreply.github.com> Co-authored-by: Robert Shaw <robshaw@redhat.com>	2026-01-28 11:06:22 +00:00
Alex Brooks	9ac818a551	[Misc] HF Hub LoRA Resolver (#20320 ) Signed-off-by: Alex-Brooks <Alex.Brooks@ibm.com>	2026-01-26 13:56:32 +00:00
Cyrus Leung	11b556878b	[Refactor] Use data parser for matching data items to multi-modal UUIDs (#32955 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2026-01-26 15:00:28 +08:00
zhanqiuhu	151e5451c2	[Doc] Add Qwen2.5 models to batch invariance tested models (#33016 ) Signed-off-by: Zhanqiu Hu <zh338@cornell.edu>	2026-01-25 09:20:46 +00:00
Eldar Kurtić	44f08af3a7	Add llmcompressor fp8 kv-cache quant (per-tensor and per-attn_head) (#30141 ) Signed-off-by: Eldar Kurtic <8884008+eldarkurtic@users.noreply.github.com> Signed-off-by: eldarkurtic <8884008+eldarkurtic@users.noreply.github.com>	2026-01-22 13:29:57 -07:00
Cyrus Leung	d117a4d1a9	[Frontend] Introduce Renderer for processing chat messages (using `ModelConfig`) (#30200 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2026-01-22 12:44:22 +00:00
liranschour	64e3d67ac0	Enable Cross layers KV cache layout at NIXL Connector (#30207 ) Signed-off-by: Liran Schour <lirans@il.ibm.com> Signed-off-by: liranschour <liranschour@users.noreply.github.com> Co-authored-by: Or Ozeri <or@ozery.com>	2026-01-22 10:12:58 +00:00
Jackmin801	12dab78f49	[Feat] allow inplace loading lora (#31326 ) Signed-off-by: Jackmin801 <ongjackm@gmail.com> Signed-off-by: Jackmin801 <56836461+Jackmin801@users.noreply.github.com> Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>	2026-01-20 10:15:20 +08:00
Yuxuan Zhang	71832ba71e	[GLM-4.7] GLM Model support for GLM-Lite (#31386 ) Signed-off-by: zRzRzRzRzRzRzR <2448370773@qq.com> Signed-off-by: Yuxuan Zhang <2448370773@qq.com>	2026-01-19 01:18:38 -08:00
Michael Goin	6388b50058	[Docs] Add docs about OOT Quantization Plugins (#32035 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2026-01-14 15:25:45 +08:00
Yi Liu	50632adc58	Consolidate Intel Quantization Toolkit Integration in vLLM (#31716 ) Signed-off-by: yiliu30 <yi4.liu@intel.com>	2026-01-14 07:11:30 +00:00
Nicolò Lucchesi	8c8653b672	[Docs] Nixl Usage recommend `fail` kv_load_failure_policy (#32198 ) Signed-off-by: NickLucche <nlucches@redhat.com>	2026-01-13 12:51:57 +00:00
Andrew Bennett	f243abc92d	Fix various typos found in `docs` (#32212 ) Signed-off-by: Andrew Bennett <potatosaladx@meta.com>	2026-01-13 03:41:47 +00:00
Andy Zhang	e68b0dad8b	doc: Update model name for Qwen3-Coder in documentation (#32185 ) Signed-off-by: Andy Zhang <xiazhang@microsoft.com>	2026-01-12 07:10:50 -08:00
Or Ozeri	9cddbdba6d	OffloadingConnector: Add cpu_bytes_to_use configuration (#24498 ) Signed-off-by: Or Ozeri <oro@il.ibm.com>	2026-01-12 15:00:43 +00:00
Jee Jee Li	05e8981234	[Doc] Improve LoRA docs (#32159 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com> Signed-off-by: Cyrus Leung <cyrus.tl.leung@gmail.com> Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>	2026-01-12 02:19:17 -08:00
Jeremy Teboul	657e9c0e18	[Fix] Introduce audio channels spec (#31595 ) Signed-off-by: Jeremy Teboul <jeremyte@meta.com>	2026-01-09 19:34:51 +00:00
vSeamar	6f351548b2	[Frontend] Implement robust video frame recovery for corrupted videos (#29197 ) Signed-off-by: cmartinez <cmartinez@roblox.com> Signed-off-by: vSeamar <cmartinez@roblox.com>	2026-01-07 01:13:24 +00:00
Jee Jee Li	cbd4690a03	[LoRA]Disable linear LoRA kernel PDL (#31777 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2026-01-06 23:12:25 +08:00
BlankR	6ebb66ccea	[Doc] Fix format of multimodal_inputs.md (#31800 ) Signed-off-by: BlankR <hjyblanche@gmail.com>	2026-01-06 03:30:24 -08:00
labAxiaoming	a01f2faedf	Add multimodal input method in the documentation (#31601 ) Signed-off-by: xiaoming <1259730330@qq.com>	2026-01-02 12:43:30 +00:00
Hojin Yang	dc837bc23e	feat(frontend): add --default-chat-template-kwargs CLI argument (#31343 ) Signed-off-by: effortprogrammer <yhjhoward7@gmail.com>	2025-12-30 03:38:47 +00:00
qli88	0f35429a0c	[CI]Test Group 'NixlConnector PD accuracy tests' is fixed (#31460 ) Signed-off-by: qli88 <qiang.li2@amd.com>	2025-12-29 23:48:56 +00:00
Harry Mellor	decc244767	[Docs] Use relative `md` links instead of absolute `html` links for cross referencing (#31494 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-12-29 13:33:44 +00:00
Jee Jee Li	ce1eafd1a5	[Core] Initialize LoRA support for tower and connector in multi-modal models (#26674 ) Signed-off-by: bk-201 <joy25810@foxmail.com> Signed-off-by: Jee Jee Li <pandaleefree@gmail.com> Signed-off-by: prashanth058 <prashanth.dannamaneni@uipath.com> Co-authored-by: bk-201 <joy25810@foxmail.com> Co-authored-by: prashanth058 <prashanth.dannamaneni@uipath.com> Co-authored-by: Anexdeus <5142168@mail.ru>	2025-12-26 04:48:20 -08:00
Mark Gatere	ba25a65992	[Frontend] add FunctionGemma tool parser support (#31218 ) Signed-off-by: gateremark <gateremg@gmail.com>	2025-12-25 15:29:25 +08:00
Amith KK	42826bbccd	[Doc] Add tool call parser documentation for GPT-OSS models (#31212 ) Signed-off-by: Amith KK <amithkumaran@gmail.com>	2025-12-25 05:29:10 +00:00
Cyrus Leung	d201807339	[Chore] Bump `lm-eval` version (#31264 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-12-24 05:39:13 -08:00
Yan Ma	f1c2c20136	[XPU] decrease IGC_ForceOCLSIMDWidth for speculative decoding triton-xpu kernel compilation (#30538 ) Signed-off-by: Yan Ma <yan.ma@intel.com>	2025-12-23 05:22:15 +00:00
CedricHuang	19cc9468fd	[Feature]: Support NVIDIA ModelOpt HF FP8 variants FP8_PER_CHANNEL_PER_TOKEN and FP8_PB_WO in vLLM (#30957 )	2025-12-21 22:34:49 -05:00
Steve Westerhouse	9d701e90d8	[Doc] Clarify FP8 KV cache computation workflow (#31071 ) Signed-off-by: westers <steve.westerhouse@origami-analytics.com>	2025-12-22 08:41:37 +08:00
Yuxuan Zhang	8a7a414374	GLM-4.7 Tool Parser and Doc Update (#30876 ) Signed-off-by: zRzRzRzRzRzRzR <2448370773@qq.com>	2025-12-20 00:09:58 +00:00
Chauncey	2a1776b7ac	[Refactor] [2/N] Move tool parsers into the vLLM main directory (#30675 ) Signed-off-by: chaunceyjiang <chaunceyjiang@gmail.com>	2025-12-15 12:54:52 +00:00
Xu Song	25221b44bb	Add more docs for regex (#30106 ) Signed-off-by: Xu Song <xusong.vip@gmail.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>	2025-12-11 00:12:21 +00:00
Wilson Wu	3bdd426636	Fix typos in comments across multiple files (#30345 ) Signed-off-by: Wilson Wu <iwilsonwu@gmail.com> Co-authored-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com>	2025-12-09 20:05:28 -08:00
Hubert de La Jonquiere	c72ea10723	[Structured Output][Reasoning] Improves decoding throughput for models using single-token reasoning endings. (#30056 )	2025-12-09 18:54:08 +08:00
Fanli Lin	c2e1987a6e	[Doc] update Intel GPU MM status in Feature x Hardware matrix (#30294 ) Signed-off-by: Lin, Fanli <fanli.lin@intel.com>	2025-12-09 05:16:44 +00:00
Or Ozeri	4c6fd25880	kv_transfer: Rename the shared storage connectors (#30201 ) Signed-off-by: Or Ozeri <oro@il.ibm.com>	2025-12-08 20:46:09 -08:00
Ming Yang	60d17251c9	[Disagg] Support large batch size in proxy server and update NixlConnector doc for DP (#28782 ) Signed-off-by: Ming Yang <minos.future@gmail.com>	2025-12-09 00:01:08 +00:00
Zhiyu	cd00c443d2	[Misc] Rename TensorRT Model Optimizer to Model Optimizer (#30091 ) Signed-off-by: Zhiyu Cheng <zhiyuc@nvidia.com>	2025-12-08 07:05:27 +00:00
jeremyteboul	dce6d229f7	Support multiple image/audio embeddings per requests (#29988 ) Signed-off-by: Jeremy Teboul <jeremyteboul@fb.com> Co-authored-by: Jeremy Teboul <jeremyteboul@fb.com>	2025-12-07 04:34:24 +00:00
Viacheslav	21bb323542	Gigachat 3 tool parser and tests (#29905 ) Signed-off-by: Viacheslav Barinov <viacheslav.teh@gmail.com>	2025-12-06 12:04:14 +00:00
Hubert de La Jonquiere	befb59e5b1	[Model] Add Holo2 reasoning parser (#30048 ) Signed-off-by: hdlj-h <hubert@hcompany.ai>	2025-12-05 10:38:45 +08:00

1 2 3 4

197 Commits