biondizzle/vllm - vllm - Gitea: Git with a cup of tea

Author	SHA1	Message	Date
Wentao Ye	56dcf4e7e9	[Bug] Fix DeepGEMM Env Control (#23591 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-08-25 18:41:21 -07:00
weiliang	ae067888d6	Update Flashinfer to 0.2.14.post1 (#23537 ) Signed-off-by: Siyuan Fu <siyuanf@nvidia.com> Signed-off-by: siyuanf <siyuanf@nvidia.com> Signed-off-by: Weiliang Liu <weiliangl@nvidia.com> Signed-off-by: Michael Goin <mgoin64@gmail.com> Co-authored-by: Siyuan Fu <siyuanf@nvidia.com> Co-authored-by: Michael Goin <mgoin64@gmail.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>	2025-08-25 18:30:44 -07:00
Michael Goin	906e461ed6	[CI Fix] Pin deepep and pplx tags in tools/ep_kernels/, gate multigpu tests (#23568 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2025-08-25 18:29:00 -07:00
Simon Mo	2a97ffc33d	[Misc] Add release note draft to PR template (#23598 ) Signed-off-by: simon-mo <simon.mo@hey.com>	2025-08-25 16:44:51 -07:00
Woosuk Kwon	efc88cf64a	[Misc] Simplify FlashInfer attention metadata (#23585 ) Signed-off-by: Woosuk Kwon <woosuk@thinkingmachines.ai>	2025-08-25 15:42:29 -07:00
Terrence Zhao	7b6a837275	[Docs] Update Documentation of Cohere Command-A Models (#23584 ) Signed-off-by: Terrencezzj <terrence@cohere.ai> Signed-off-by: Abatom <abzhonghua@gmail.com> Co-authored-by: Zhonghua Deng <abzhonghua@gmail.com>	2025-08-25 21:53:52 +00:00
Pate Motter	c34c82b7fe	[TPU][Bugfix] Fixes prompt_token_ids error in tpu tests. (#23574 ) Signed-off-by: Pate Motter <patemotter@google.com>	2025-08-25 14:29:16 -07:00
Chaojun Zhang	8a044754bd	[XPU] Delay BF16 check to worker init for spawn compatibility (#22979 ) Signed-off-by: chzhang <chaojun.zhang@intel.com>	2025-08-25 13:09:26 -07:00
Zhonghua Deng	9188ae7cb5	[Bugfix][V1][P/D]Fix the issue where repeated requests for the same input produce abnormal outputs for P2pNcclConnector (#23403 ) Signed-off-by: Abatom <abzhonghua@gmail.com>	2025-08-25 12:57:08 -07:00
Xin Yang	8a3cd90af5	[Kernel] Add fused grouped_topk kernel for MoE (#23274 ) Signed-off-by: Xin Yang <xyangx@amazon.com> Co-authored-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com>	2025-08-25 11:47:52 -07:00
22quinn	2a167b2eeb	[test][RL] Add sleep level 2 test and fix reload with sleep mode (#23521 ) Signed-off-by: 22quinn <33176974+22quinn@users.noreply.github.com>	2025-08-26 00:25:52 +08:00
Woosuk Kwon	0ff902f3b4	[Refactor] Refactor persistent buffers with CpuGpuBuffer (#23515 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>	2025-08-25 08:44:48 -07:00
Isotr0py	a9082a4d14	[Bugfix] Fix Qwen3 MoE GPTQ inference (#23490 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-08-25 06:40:20 -07:00
Driss Guessous	e0329ed4b4	Updates to Flex + VLLm integration (#21416 ) Signed-off-by: drisspg <drisspguessous@gmail.com>	2025-08-25 09:32:42 -04:00
Cyrus Leung	6879cd80ae	[Refactor] Pass `tokenizer` explicitly instead of binding to prompt update (#23542 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-08-25 06:31:57 -07:00
Cyrus Leung	e269be2ba2	[Doc] Add caution for API server scale-out (#23550 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-08-25 06:14:15 -07:00
Ayush Satyam	5c4b6e66fe	[Attention] Unify mamba and attention backend selection (#23171 ) Signed-off-by: Ayush Satyam <ayushsatyam146@gmail.com>	2025-08-25 09:09:36 +00:00
youkaichao	d0a4a3f645	[misc] add shanghai meetup (#23535 ) Signed-off-by: youkaichao <youkaichao@gmail.com>	2025-08-25 17:00:03 +08:00
Cyrus Leung	ebafb0936d	[Bugfix] Allow dynamic number of patches for llava_onevision (#23525 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-08-25 08:34:54 +00:00
Breno Baldas Skuk	0cb7b065c3	Feature/benchmark/random mm data/images (#23119 ) Signed-off-by: breno.skuk <breno.skuk@hcompany.ai>	2025-08-25 01:28:35 -07:00
ZiTian Zhao	2da02dd0d8	[Fix] DeepSeek V3.1 tool parser error message (#23492 ) Signed-off-by: zitian.zhao <zitian.zhao@tencentmusic.com>	2025-08-25 00:56:39 -07:00
Chenguang Zheng	d765cf01fe	[Core][Multimodal] Track encode cache entries by mm_hash and enable embedding sharing between requests (#22711 ) Signed-off-by: knlnguyen1802 <knlnguyen1802@gmail.com> Signed-off-by: Roger Wang <hey@rogerw.io> Co-authored-by: knlnguyen1802 <knlnguyen1802@gmail.com> Co-authored-by: Roger Wang <hey@rogerw.io>	2025-08-25 00:41:17 -07:00
Cyrus Leung	712d0f88d8	[Refactor] Dynamic `target` and `content` for prompt updates (#23411 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-08-24 23:39:58 -07:00
Yu Guo	49ab23b3cc	[gpt-oss] use reasoning channel for reasoning text in serving_chat (#22920 ) Signed-off-by: Yu Guo <yuguo@meta.com>	2025-08-25 06:29:34 +00:00
LIYIFAN_liyifan	c9abb10489	[Bugfix] Fix Dense module loading for sentence-transformers embedding models (simplified V2) (#23408 ) Signed-off-by: FFFfff1FFFfff <yifanli0919@gmail.com>	2025-08-25 05:39:24 +00:00
Benji Beck	787cdb3829	Migrate DonutImagePixelInputs to TensorSchema (#23509 ) Signed-off-by: Benji Beck <benjibeck@meta.com>	2025-08-25 05:02:15 +00:00
Benji Beck	a5203d04df	Migrate skyworkr1v inputs to TensorSchema (#23499 ) Signed-off-by: Benji Beck <benjibeck@meta.com>	2025-08-25 04:43:21 +00:00
Benji Beck	99f8094400	Migrate tarsier inputs to TensorSchema (#23500 ) Signed-off-by: Benji Beck <benjibeck@meta.com>	2025-08-25 04:42:36 +00:00
Jee Jee Li	170e8ea9ea	[Misc] Unified linear print info (#23516 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-08-24 20:13:51 -07:00
zifeitong	a71e4765cc	[Bugfix] Fix Qwen2.5-VL quantized model weights loading (#23512 ) Signed-off-by: Zifei Tong <zifeitong@gmail.com>	2025-08-25 10:40:22 +08:00
Noam Gat	39971db3aa	Frontend: Adding LM Format Enforcer support to V1 engine (#22564 ) Signed-off-by: Noam Gat <noamgat@gmail.com> Co-authored-by: Russell Bryant <rbryant@redhat.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>	2025-08-24 19:31:22 -07:00
Ming Yang	504d914314	[Perf] Add Triton config for DeepSeek V3 FP8 EP32 H200 (#23504 ) Signed-off-by: Ming Yang <minos.future@gmail.com>	2025-08-24 18:06:35 -07:00
Didier Durand	47455c424f	[Doc: ]fix various typos in multiple files (#23487 ) Signed-off-by: Didier Durand <durand.didier@gmail.com> Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com> Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-08-25 00:04:04 +00:00
Lucia Fang	c7fc6b1354	fix incompatibililty with non cuda platform for nvfp4 (#23478 ) Signed-off-by: Lu Fang <fanglu@fb.com> Co-authored-by: Lucia (Lu) Fang <fanglu@meta.com>	2025-08-24 15:35:41 -07:00
Woosuk Kwon	ad78868450	[Misc] Remove unused slot_mapping buffer (#23502 ) Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>	2025-08-24 14:03:36 -07:00
Cyrus Leung	e2db1164a1	[Model] Enable BLOOM on V1 (#23488 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-08-24 13:30:47 +00:00
汪志鹏	416f05929a	[New Model]Donut model (#23229 ) Signed-off-by: 汪志鹏 <wangzhipeng628@gmail.com>	2025-08-24 12:52:24 +00:00
TeeKen Lau	5e021b4981	(Misc): add missing test for zero truncation size. (#23457 ) Signed-off-by: teekenl <teekenlau@gmail.com>	2025-08-24 18:12:47 +08:00
rongfu.leng	1b9b16649c	[Misc] update dict parse to EPLBConfig from json dumps to dict unpacking (#23305 ) Signed-off-by: rongfu.leng <rongfu.leng@daocloud.io>	2025-08-24 08:06:34 +00:00
czhu-cohere	e76e233540	[kernel] Support W4A8 on Hopper (#23198 ) Signed-off-by: czhu-cohere <conway.zhu@cohere.com>	2025-08-24 06:18:04 +00:00
Benji Beck	a75277285b	Migrate Paligemma inputs to TensorSchema (#23470 ) Signed-off-by: Benji Beck <benjibeck@meta.com>	2025-08-24 04:56:56 +00:00
22quinn	9dc30b7068	[Bugfix] Add strong reference to CUDA pluggable allocator callbacks (#23477 ) Signed-off-by: 22quinn <33176974+22quinn@users.noreply.github.com> Signed-off-by: youkaichao <youkaichao@gmail.com> Co-authored-by: Eric Marcus <eric.marcus@kaiko.ai> Co-authored-by: youkaichao <youkaichao@gmail.com>	2025-08-24 12:56:17 +08:00
Benji Beck	053278a5dc	Migrate Pixtral inputs to TensorSchema (#23472 ) Signed-off-by: Benji Beck <benjibeck@meta.com>	2025-08-24 04:55:53 +00:00
Jiangyun Zhu	c55c028998	[gpt-oss] Streaming Output for Python Tool (#23409 ) Signed-off-by: zjy0516 <riverclouds.zhu@qq.com>	2025-08-24 04:42:38 +00:00
Jee Jee Li	65197a5fb3	[Misc] Modify CacheConfig import (#23459 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-08-23 06:05:27 +00:00
Xu Wenqing	b8f17f5d98	Support DeepSeek-V3.1 tool call (#23454 ) Signed-off-by: Xu Wenqing <xuwq1993@qq.com>	2025-08-23 05:50:16 +00:00
Aziz	d9a55204ba	fix(tests): Correct unreachable assertion in truncation test (#23425 ) Signed-off-by: AzizCode92 <azizbenothman76@gmail.com>	2025-08-23 05:23:54 +00:00
Cyrus Leung	b4e9fd811f	Revert "[PERF] Use faster way of decode in tokenizer: avoid useless list-to-list conversion (#20000 )" (#23396 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-08-23 04:16:48 +00:00
Chenxi Yang	308fa287a8	Add glm4.5v tp2,4 fp8 config on H100_80GB (#23443 ) Co-authored-by: Chenxi Yang <cxyang@meta.com>	2025-08-23 02:54:19 +00:00
Daifeng Li	fa78de9dc3	Quantization: support FP4 quantized models on AMD CDNA2/CDNA3 GPUs (#22527 ) Signed-off-by: feng <fengli1702@gmail.com> Signed-off-by: Michael Goin <mgoin64@gmail.com> Co-authored-by: Michael Goin <mgoin64@gmail.com>	2025-08-22 20:53:21 -06:00

1 2 3 4 5 ...

8877 Commits