biondizzle/vllm - vllm - Gitea: Git with a cup of tea

Author	SHA1	Message	Date
Jee Jee Li	9ad0688e43	[Bugfix] Fix hidden_size for multimodal classification model (#24501 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-09-09 10:37:25 -07:00
wang.yuqi	19332c0479	[Model] Systematic support for fp32 head, pooling models part (#23810 ) Signed-off-by: wang.yuqi <noooop@126.com>	2025-09-09 07:29:50 -07:00
WeiQing Chen	e283976f3a	[Performance][MM] Building the inverse permutation in O(n) time in Qwen2_5_VisionTransformer (#24443 ) Signed-off-by: Junhong <liujunhong11@huawei.com> Co-authored-by: Junhong <liujunhong11@huawei.com>	2025-09-09 00:24:11 -07:00
CSWYF3634076	b6fbc15634	[BugFix][Model] Fix Ernie4.5-VL hanging on long inputs (#24074 ) Signed-off-by: wangyafeng <wangyafeng@baidu.com>	2025-09-09 11:37:16 +08:00
Tyler Michael Smith	955c624915	[Bugfix][Wide EP] Fix redundant work when using DeepEP, TP Attn, and EP MoE (#24134 ) Signed-off-by: Tyler Michael Smith <tlrmchlsmth@gmail.com>	2025-09-08 19:01:51 -07:00
Jee Jee Li	8d7f39b48c	[Model] Remove quantized mixtral (#24437 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-09-08 11:02:14 -07:00
Jee Jee Li	6f4a82f8b5	[Model] Enable BNB support for qwen2_5_omni_thinker (#24420 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-09-08 09:37:08 -07:00
Chenheli Hua	01dfb5e982	[Frontend] User-provided uuids for medias in chat. (RFC #22044 ) (#23449 ) Signed-off-by: Roger Wang <hey@rogerw.io> Signed-off-by: Chenheli Hua <huachenheli@outlook.com> Signed-off-by: Roger Wang <hey@rogerw.me> Signed-off-by: Cyrus Leung <cyrus.tl.leung@gmail.com> Co-authored-by: Roger Wang <hey@rogerw.io> Co-authored-by: Roger Wang <hey@rogerw.me> Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com>	2025-09-08 06:42:20 -07:00
Chatcharin Sangbutsarakum	60f0843ef8	[Model] Remove unnecessary CUDA sync of Qwen2VL image and video preprocess (#24334 ) Signed-off-by: Win <chatcharinsang@gmail.com> Co-authored-by: Roger Wang <hey@rogerw.io>	2025-09-07 23:11:12 -07:00
Chatcharin Sangbutsarakum	8a46602606	[Model] Remove unnecessary CUDA sync of GLM-4.1V image and video preprocess (#24332 ) Signed-off-by: Win <chatcharinsang@gmail.com> Co-authored-by: Roger Wang <hey@rogerw.io>	2025-09-07 23:10:54 -07:00
Benji Beck	37a6fa95fd	Migrate Qwen2 inputs to TensorSchema (#23475 ) Signed-off-by: Benji Beck <benjibeck@meta.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>	2025-09-06 20:07:31 -07:00
Roger Wang	eddaafc1c7	[Multimodal] Improve max video embedding length estimation in V1 (#24312 ) Signed-off-by: Roger Wang <hey@rogerw.me> Co-authored-by: Roger Wang <hey@rogerw.me>	2025-09-06 02:33:19 -07:00
wang.yuqi	6d6c6b05d3	[New Model]: google/embeddinggemma-300m (#24318 ) Signed-off-by: wang.yuqi <noooop@126.com>	2025-09-05 22:58:36 -07:00
Isotr0py	53b19ccdd5	[Core] Allow disabling TP sharding for parallel Linear layer (#23024 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Signed-off-by: Isotr0py <2037008807@qq.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>	2025-09-05 22:53:58 -07:00
Aaron Pham	c29fb540ff	[gpt-oss] tool parser supports for /chat/completions [1/n] (#22386 ) Signed-off-by: Aaron Pham <contact@aarnphm.xyz> Co-authored-by: Simon Mo <simon.mo@hey.com>	2025-09-04 20:39:12 -07:00
Yash Pratap Singh	c9f7081f9c	[LoRA]: Add lora support to qwen-2.5-omni (#24231 )	2025-09-04 05:50:50 -07:00
Jiangyun Zhu	eafa8dcde6	[Model] Add pp support for hunyuan (#24212 ) Signed-off-by: zjy0516 <riverclouds.zhu@qq.com>	2025-09-04 03:58:26 -07:00
whx	3efb9f4d95	[Attention][Platform] Refactor MLA to support Custom Op (#23332 ) Signed-off-by: whx-sjtu <2952154980@qq.com>	2025-09-04 02:46:37 -07:00
mgazz	51d5e9be7d	[Core][Model] Terratorch backend integration (#23513 ) Signed-off-by: Michele Gazzetti <michele.gazzetti1@ibm.com> Signed-off-by: Christian Pinto <christian.pinto@ibm.com> Co-authored-by: Christian Pinto <christian.pinto@ibm.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>	2025-09-04 00:22:41 -07:00
bingchen-mi	e7fc70016f	[Model] Add MiDashengLM model support (#23652 ) Signed-off-by: chenbing8 <chenbing8@xiaomi.com> Signed-off-by: bingchen-mi <chenbing8@xiaomi.com> Co-authored-by: Jee Jee Li <pandaleefree@gmail.com> Co-authored-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-09-04 00:08:09 -07:00
Benji Beck	cb55ad86fe	Migrate ultravox inputs to TensorSchema (#23503 ) Signed-off-by: Benji Beck <benjibeck@meta.com>	2025-09-04 06:09:11 +00:00
Benji Beck	731a6940e3	Migrate whisper inputs to TensorSchema (#23505 ) Signed-off-by: Benji Beck <benjibeck@meta.com>	2025-09-03 18:04:00 +00:00
bnellnm	e9b92dcd89	[Kernels] Overlap shared experts with send/recv (#23273 ) Signed-off-by: Bill Nell <bnell@redhat.com>	2025-09-03 12:35:18 -04:00
nopperl	fa4311d85f	[V1] v1 engine + full CUDA graph support for PLaMo2 (#23998 ) Signed-off-by: Hemmi Shinichi <shemmi@preferred.jp> Signed-off-by: nopperl <54780682+nopperl@users.noreply.github.com> Co-authored-by: Hemmi Shinichi <shemmi@preferred.jp> Co-authored-by: Thomas Parnell <tom.parnell@gmail.com>	2025-09-03 08:24:02 -07:00
Yong Hoon Shin	426cc8629f	[BugFix] Fix routed_scaling_factor double mul for dots1 and glm4 MoE models (#24132 ) Signed-off-by: Yong Hoon Shin <yhshin@meta.com>	2025-09-03 04:57:59 +00:00
co63oc	1bd007f234	fix some typos (#24071 ) Signed-off-by: co63oc <co63oc@users.noreply.github.com>	2025-09-02 20:44:50 -07:00
Wentao Ye	930a24144c	[Bug] R1 Accuracy: Fix `routed_scaling_factor` Double Mul Issue (#24119 ) Signed-off-by: yewentao256 <zhyanwentao@126.com>	2025-09-02 22:22:30 +00:00
nathan	598bd74cf8	Fix weights loading for Apertus (#24100 ) Signed-off-by: Nathan Ranchin <nranchin@student.ethz.ch>	2025-09-02 18:34:28 +00:00
wang.yuqi	e0653f6c0b	[Model] Classification models support logit_bias / sigmoid_normalize (#24031 ) Signed-off-by: wang.yuqi <noooop@126.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>	2025-09-02 16:48:57 +00:00
Kyungmin Lee	38ba061f6f	[BugFix] Fix EXAONE4 rotary embeddings (#23918 ) Signed-off-by: lkm2835 <lkm2835@gmail.com> Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com> Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-09-02 14:40:55 +00:00
Nicolò Lucchesi	0a74e9d0f2	[Gemma3n] Fix audio batching (#24052 ) Signed-off-by: NickLucche <nlucches@redhat.com>	2025-09-02 22:23:35 +08:00
WeiQing Chen	2f0bab3f26	[Model] Support dp on ViT on GLM-4.5V (#23168 ) Signed-off-by: David Chen <530634352@qq.com>	2025-09-02 10:48:18 +00:00
Benji Beck	56d04089ef	Migrate Interns1 inputs to TensorSchema (#23510 ) Signed-off-by: Benji Beck <benjibeck@meta.com>	2025-09-02 04:35:45 +00:00
Benji Beck	1fa1d6a9a0	Migrate OvisImagePatchInputs to TensorSchema (#22024 ) Signed-off-by: Benji Beck <benjibeck@meta.com>	2025-09-02 12:01:36 +08:00
damon	04d0c60770	[Bugfix] Fix the issue that Blip2ForConditionalGeneration' object has… (#24028 ) Signed-off-by: Dazhi Jiang <dazhi_jiang@163.com>	2025-09-02 11:54:20 +08:00
Didier Durand	0235103cbb	[Doc]: fix typos in Python comments (#24042 ) Signed-off-by: Didier Durand <durand.didier@gmail.com> Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>	2025-09-01 19:07:45 -07:00
WeiQing Chen	a0e0efd6bd	[Model] Support DP for ViT on Kimi-VL-A3B-Thinking-2506 (#23817 ) Signed-off-by: Junhong <liujunhong11@huawei.com> Signed-off-by: LJH-LBJ <98734602+LJH-LBJ@users.noreply.github.com> Co-authored-by: Junhong <liujunhong11@huawei.com> Co-authored-by: LJH-LBJ <98734602+LJH-LBJ@users.noreply.github.com> Co-authored-by: Isotr0py <2037008807@qq.com>	2025-09-01 16:56:56 +00:00
Kwai-Keye	7c8271cd1e	[Model]: support KeyeVL-1_5-8B (#23838 ) Signed-off-by: wangruitao <wangruitao@kuaishou.com> Co-authored-by: wangruitao <wangruitao@kuaishou.com>	2025-09-01 03:50:27 -07:00
Nicolò Lucchesi	d46934b229	[Frontend] Gemma3n audio `transcriptions`/`translations` endpoint (#23735 ) Signed-off-by: NickLucche <nlucches@redhat.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>	2025-09-01 18:07:46 +08:00
Didier Durand	107284959a	[Doc]: fix typos in Python comments (#24026 ) Signed-off-by: Didier Durand <durand.didier@gmail.com>	2025-09-01 09:38:20 +00:00
Benji Beck	437c3ce026	Migrate Phi4 inputs to TensorSchema (#23471 ) Signed-off-by: Benji Beck <benjibeck@meta.com>	2025-09-01 14:05:59 +08:00
Isotr0py	ff0e59d83a	[CI/Build] Improve Tensor Schema tests speed by avoid engine core initialization (#23357 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-08-31 22:52:20 -07:00
JartX	183a70967a	[BUGFIX] GPTQ quantization compatibility for Qwen3 MOE models (AutoGPTQ and AutoRound-GPTQ) (#23994 ) Signed-off-by: JartX <sagformas@epdcenter.es> Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Co-authored-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-09-01 03:33:40 +00:00
sadegh.shokatian	379ea2823a	Add LoRA support for DeepSeek models (V2, V3, R1-0528) (#23971 ) Signed-off-by: sadeghja1070 <sadegh.ja1070@gmail.com> Signed-off-by: Jee Jee Li <pandaleefree@gmail.com> Co-authored-by: Claude <noreply@anthropic.com> Co-authored-by: Jee Jee Li <pandaleefree@gmail.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>	2025-08-30 06:40:02 -07:00
Jiangyun Zhu	3a6acad431	[Model] Enable encoder DP for MiniCPM-V (#23948 ) Signed-off-by: zjy0516 <riverclouds.zhu@qq.com> Signed-off-by: Jiangyun Zhu <riverclouds.zhu@qq.com> Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com>	2025-08-30 06:31:26 -07:00
Thomas Parnell	4071c76cf3	[V1] [Hybrid] Move MiniMaxLinearAttention into layers/mamba (#23831 ) Signed-off-by: Thomas Parnell <tpa@zurich.ibm.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>	2025-08-30 00:16:15 -07:00
Xin Yang	8fb85b7bb6	Add routed_scaling_factor to MoE grouped topk (#23123 ) Signed-off-by: Xin Yang <xyangx@amazon.com> Co-authored-by: Michael Goin <mgoin64@gmail.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>	2025-08-29 21:36:48 -07:00
Yong Hoon Shin	8c3e199998	Revert gemma3n fast prefill changes (#23897 ) Signed-off-by: Yong Hoon Shin <yhshin@meta.com>	2025-08-29 12:16:57 -07:00
Lukas Geiger	0a2f4c0793	[Models] Use in-place adds in Idefics2Vision (#23932 ) Signed-off-by: Lukas Geiger <lukas.geiger94@gmail.com>	2025-08-29 07:42:57 -07:00
EduardDurech	1cf3753b90	[MODEL] `Apertus` and `XIELU` (#23068 ) Signed-off-by: EduardDurech <39579228+EduardDurech@users.noreply.github.com> Co-authored-by: AllenHaoHuang <allenhuangdd@gmail.com>	2025-08-29 20:29:18 +08:00

1 2 3 4 5 ...

1454 Commits