biondizzle/vllm - vllm - Gitea: Git with a cup of tea

Author	SHA1	Message	Date
Paul Zhang	faedbb4d4f	[Feature] Extend batch invariant torch.compile to B200 (#27856 ) Signed-off-by: PaulZhang12 <paulzhan@fb.com>	2025-11-05 10:04:49 -08:00
Chen Zhang	c765f0b443	[FlashInfer] Avoid FlashInfer block_size 16 + head_size 256 on blackwell (#27994 ) Signed-off-by: Chen Zhang <zhangch99@outlook.com>	2025-11-05 09:25:32 -08:00
Jiangyun Zhu	c18f88c6ca	[Kernel] Fuse computation of g and beta for Gated Delta Net (#28095 ) Signed-off-by: zjy0516 <riverclouds.zhu@qq.com>	2025-11-05 09:14:55 -08:00
Isotr0py	3f5a4b6473	[Bugfix] Validate custom logits processor xargs for online serving (#27560 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-11-05 16:53:33 +00:00
Ilya Markov	e50c454672	[BugFix] Support EP/DP + EPLB with MTP (#25311 ) Signed-off-by: ilmarkov <markovilya197@gmail.com> Signed-off-by: Sage Moore <sage@neuralmagic.com> Co-authored-by: Sage Moore <sage@neuralmagic.com> Co-authored-by: Tyler Michael Smith <tyler@neuralmagic.com> Co-authored-by: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com>	2025-11-05 15:22:17 +00:00
Frost Mitchell	6e97eccf5d	[XPU] Enable custom routing functions in IPEX for Llama4 (#28004 ) Signed-off-by: frost-intel <frost.mitchell@intel.com>	2025-11-05 13:39:57 +00:00
amirkl94	6b7a81185d	Bugfix: Cutlass FP8 FusedMoE bad scaling factors (#27255 ) Signed-off-by: Amir Klein <203507526+amirkl94@users.noreply.github.com> Co-authored-by: Tyler Michael Smith <tyler@neuralmagic.com> Co-authored-by: Michael Goin <mgoin64@gmail.com>	2025-11-05 06:06:06 -05:00
Alex Brooks	b7cbc25416	[Model, Core] Support Granite Speech & LoRA for STT (#24455 )	2025-11-05 08:33:48 +01:00
Isotr0py	0ff05e3770	[Bugfix] Fix encoder-only model support for transformers backend (#28021 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com> Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-11-04 22:24:41 -08:00
wangxiyuan	428bc7bf1c	[V0 deprecation] Remove VLLM_USE_V1 usage in most modules (#27955 ) Signed-off-by: wangxiyuan <wangxiyuan1007@gmail.com>	2025-11-04 20:51:16 -08:00
Kunshang Ji	18b39828d9	[XPU] Add gpt-oss model support for Intel GPU (#27786 ) Signed-off-by: Kunshang Ji <kunshang.ji@intel.com>	2025-11-05 02:17:23 +00:00
tou	4ea62b77f5	[Qwen3-Next] MOE configs for A100-SXM4-80GB TP4 TP8 (#27740 )	2025-11-05 09:25:09 +08:00
Vadim Gimpelson	d4e547bb7e	Revert "[PERF] Decouple projections from GDN custom op" (#28080 ) Signed-off-by: Vadim Gimpelson <vadim.gimpelson@gmail.com>	2025-11-04 15:58:23 -08:00
Aleksandr Malyshev	2d977a7a9e	[ROCm] gemm_a16w16 upstreaming (#26969 ) Signed-off-by: Aleksandr Malyshev <maleksan@amd.com> Co-authored-by: Aleksandr Malyshev <maleksan@amd.com>	2025-11-04 16:01:00 -05:00
yt0428	05cae69f0f	[model] Add support for openPangu_Ultra_MoE (#27521 ) Signed-off-by: yuantao <2422264527@qq.com> Signed-off-by: yt0428 <51468697+yt0428@users.noreply.github.com> Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>	2025-11-04 08:17:20 -08:00
Vadim Gimpelson	5fd8f02ea9	[PERF] Decouple projections from GDN custom op (#27512 ) Signed-off-by: Vadim Gimpelson <vadim.gimpelson@gmail.com>	2025-11-04 08:11:41 -08:00
bnellnm	938772af03	[Kernels] Isolate modular kernel code from FusedMoEMethodBase subclasses. (#27123 )	2025-11-04 21:59:45 +08:00
tomeras91	e4ee658672	[Model] add optimal triton fused moe configs for NemotronH MoE (#27967 ) Signed-off-by: Tomer Asida <57313761+tomeras91@users.noreply.github.com>	2025-11-04 12:59:43 +00:00
tomeras91	77f8001f53	[Model][Bugfix] fix pipeline parallelism support for NemotronH (#27968 ) Signed-off-by: Tomer Asida <57313761+tomeras91@users.noreply.github.com>	2025-11-04 12:28:36 +00:00
Jerry Zhang	03c4c4aa9d	Support using Int4PreshuffledTensor after loading (#26066 ) Signed-off-by: Jerry Zhang <jerryzh168@gmail.com>	2025-11-04 06:00:57 -05:00
Varun Sundar Rabindranath	4022a9d279	[BugFix][Performance] Restore flashinfer autotuning for all scenarios (#27904 )	2025-11-04 15:56:21 +08:00
Wentao Ye	7e4be74104	[Bug] Batch invariant: Fix flash attn MLA `RuntimeError: scheduler_metadata must have shape (metadata_size)` (#27884 )	2025-11-04 14:05:55 +08:00
vllmellm	b13a447546	[Bugfix][ROCm] Fix ViT rotary embeddings for torch.compile compatibility on ROCm (#27748 ) Signed-off-by: vllmellm <vllm.ellm@embeddedllm.com>	2025-11-03 17:12:19 -08:00
Tyler Michael Smith	3758757377	[Bugfix] Fix MoE Routing Simulation (#28002 ) Signed-off-by: Tyler Michael Smith <tlrmchlsmth@gmail.com>	2025-11-03 22:26:49 +00:00
Hank_	ccd3e55e51	[Bugfix][plugin] fla crash on plugin (#27322 )	2025-11-04 05:27:03 +08:00
Lucas Kabela	55011aef24	[Bugfix][Qwen][Multimodal] Move Qwen2_5_vl sdpa to custom op and reenable compile (#27764 ) Signed-off-by: Lucas Kabela <lucaskabela@meta.com>	2025-11-03 11:12:15 -08:00
zhang-prog	40b69e33e7	[Model] Add PaddleOCR-VL Model Support (#27758 ) Signed-off-by: zhangyue <zhangyue66@baidu.com> Signed-off-by: Roger Wang <hey@rogerw.io> Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Signed-off-by: zhangyue66 <zhangyue66@baidu.com> Co-authored-by: Roger Wang <hey@rogerw.io> Co-authored-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-11-03 19:04:22 +08:00
Asaf Joseph Gardin	00b31a36a2	[V1] [Hybrid] Mamba1 Automatic Prefix Caching (#26377 ) Signed-off-by: asafg <39553475+Josephasafg@users.noreply.github.com>	2025-11-02 04:16:23 -08:00
Cyrus Leung	853a8eb53b	[Bugfix] Fix Qwen Omni audio inference (#27920 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-11-02 05:06:05 +00:00
TJian	e2347dbf58	[Bugfix] [Model] Missing MRoPE function definition from `KeyeForConditionalGeneration` (#27895 ) Signed-off-by: tjtanaa <tunjian.tan@embeddedllm.com>	2025-11-01 13:45:23 +08:00
Cyrus Leung	879a06579e	[CI/Build] Bump transformers version (#27528 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com> Co-authored-by: Isotr0py <mozf@mail2.sysu.edu.cn> Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-10-31 22:11:07 -07:00
Yan Ma	7e2729b57e	[Multimodal][XPU]Enable vision attn backend for xpu platform (#27525 ) Signed-off-by: Yan Ma <yan.ma@intel.com> Signed-off-by: Kunshang Ji <kunshang.ji@intel.com> Co-authored-by: Yejing Lai <yejing.lai@intel.com> Co-authored-by: Guancheng Fu <110874468+gc-fu@users.noreply.github.com> Co-authored-by: Kunshang Ji <kunshang.ji@intel.com>	2025-11-01 04:45:02 +00:00
Jee Jee Li	3a5de7d2d6	[Bugfix] Fix KDA output (#27905 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-11-01 11:54:36 +08:00
Jee Jee Li	bc4486d609	[Kernel] Enable FusedMoEModularKernel support bias (#27754 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-11-01 02:05:12 +00:00
Shu Wang	fc16f1c477	Flashinfer_CUTLASS_MOE fuses quantization for TP (#27223 ) Signed-off-by: Shu Wang. <shuw@nvidia.com>	2025-10-31 17:54:29 +00:00
ZiTian Zhao	bc306fe5e9	fix incorrect type annotation in KimiMLP (#27885 ) Signed-off-by: zitian.zhao <zitian.zhao@tencentmusic.com>	2025-10-31 17:38:02 +00:00
Isotr0py	7e06c40e63	[Bugfix] Fix broken MRoPE for GLM-4.1V/GLM-4.5V (#27860 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-10-31 17:04:51 +00:00
Jiangyun Zhu	3857eb8725	[Perf] Decouple torch op from GDA to leverage torch.compile (#27871 ) Signed-off-by: zjy0516 <riverclouds.zhu@qq.com>	2025-10-31 21:35:52 +08:00
toncao	e5ef4dfc11	[Kimi-Linear] Correct prefixes and add compatibility to AWQ quants (#27834 ) Signed-off-by: toncao <cpatonn@gmail.com> Co-authored-by: toncao <cpatonn@gmail.com>	2025-10-31 17:36:37 +08:00
Paul Zhang	e7acb20076	[Feature] Batch invariant torch.compile (#27660 ) Signed-off-by: PaulZhang12 <paulzhan@fb.com> Co-authored-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com>	2025-10-30 13:11:29 -07:00
Tyler Michael Smith	ab98f6556f	[Bugfix] Fix 2 precommit issues - (mamba_block_size, kv_cache_config) (#27811 ) Signed-off-by: Tyler Michael Smith <tlrmchlsmth@gmail.com> Signed-off-by: Tyler Michael Smith <tysmith@redhat.com> Co-authored-by: Nick Hill <nhill@redhat.com>	2025-10-30 11:52:18 -07:00
Roger Meier	2918c1b49c	[Model] Use the same fused_moe configs for all H200 devices (#23642 ) Signed-off-by: Roger Meier <r.meier@siemens.com>	2025-10-30 17:36:56 +00:00
Mengqing Cao	1004205795	[MTP] Refactor mtp predictor to avoid d2h operation (#27643 ) Signed-off-by: MengqingCao <cmq0113@163.com>	2025-10-30 17:27:39 +00:00
Varun Sundar Rabindranath	e5e076cad7	[BugFix] Stopgap - Flashinfer Autotuner + GPT-OSS + DP/TP (#27762 ) Signed-off-by: Varun Sundar Rabindranath <vsundarr@redhat.com> Co-authored-by: Varun Sundar Rabindranath <vsundarr@redhat.com>	2025-10-30 08:24:31 -07:00
Li, Jiang	eebf00cb0c	[Bugfix][CPU] Fix MRoPE dispatch on the CPU backend (#27800 ) Signed-off-by: jiang1.li <jiang1.li@intel.com>	2025-10-30 15:12:05 +00:00
Fan Yin	9956aae4ea	[Model][Ouro] Support Ouro Model (#27794 ) Signed-off-by: yinfan.1024 <yinfan.1024@bytedance.com> Signed-off-by: youkaichao <youkaichao@gmail.com> Co-authored-by: yinfan.1024 <yinfan.1024@bytedance.com> Co-authored-by: youkaichao <youkaichao@gmail.com> Co-authored-by: Jee Jee Li <pandaleefree@gmail.com>	2025-10-30 22:34:41 +08:00
Zhiyuan Li	4e68cc9b6a	[Model] Introduce Kimi Linear to vLLM (#27809 ) Signed-off-by: lizhiyuan <lizhiyuan@moonshot.cn> Signed-off-by: Zhiyuan Li <uniartisan2017@gmail.com>	2025-10-30 21:02:27 +08:00
wang.yuqi	4464723f22	[Frontend][Doc][5/N] Improve all pooling task \| Polish encode (pooling) api & Document. (#25524 ) Signed-off-by: wang.yuqi <noooop@126.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com> Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com>	2025-10-30 12:13:05 +00:00
Zhewen Li	e806178d2a	[BugFix][VL] Fix FA selection on Qwen2.5-VL (#27790 ) Signed-off-by: zhewenli <zhewenli@meta.com> Co-authored-by: Roger Wang <hey@rogerw.io>	2025-10-30 07:54:44 +00:00
Bram Wasti	ded8ada86a	Add more dims for batch invariant shims (#27489 ) Signed-off-by: Bram Wasti <bwasti@meta.com> Signed-off-by: Bram Wasti <bwasti@fb.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>	2025-10-30 05:28:45 +00:00

1 2 3 4 5 ...

3175 Commits