biondizzle/vllm - vllm - Gitea: Git with a cup of tea

Author	SHA1	Message	Date
Andrey Talman	2111997f96	[release 2.11] Update to torch 2.11 (#34644 )	2026-04-07 18:55:48 -07:00
Kyle Mylonakis	7b9de7c892	[Bugfix] Correct mistake in chained comparison in static assert logic (#38699 ) Signed-off-by: Kyle Mylonakis <kyle@protopia.ai>	2026-04-07 18:24:39 +08:00
Anton Ivanov	abebd9323d	[CPU] Replace OMP initialization (#36487 ) Signed-off-by: Anton Ivanov <anton.ivanov@cambridgegreys.com>	2026-04-03 18:42:43 +08:00
Li, Jiang	c6f722b93e	[CPU] Support gelu act in cpu_fused_moe (#38770 ) Signed-off-by: jiang1.li <jiang1.li@intel.com>	2026-04-02 14:14:32 +08:00
Li, Jiang	36d7f19897	[CPU] Support head_size 512 in cpu_attn (#38676 ) Signed-off-by: jiang1.li <jiang1.li@intel.com>	2026-04-01 05:42:27 +00:00
Yintong Lu	f09daea261	[CPU] Support int8 compute mode in CPU AWQ (#35697 ) Signed-off-by: Yintong Lu <yintong.lu@intel.com>	2026-03-31 15:27:37 +08:00
Li, Jiang	352b90c4a4	[Bugfix] Add replacement of _compute_slot_mapping_kernel on CPU (#37987 ) Signed-off-by: jiang1.li <jiang1.li@intel.com>	2026-03-24 07:00:20 -07:00
yassha	199f914183	fix(cpu): add null check for aligned_alloc in ScratchPadManager (#37369 ) Signed-off-by: yassha <50112520+yassha@users.noreply.github.com>	2026-03-19 17:45:06 +08:00
typer-J	4184653775	feat: add RISC-V support for CPU backend (v2) (#36578 ) Signed-off-by: typer-J <2236066784@qq.com> Co-authored-by: Li, Jiang <jiang1.li@intel.com>	2026-03-10 21:51:39 -07:00
Jiayi Yan	6a895197fa	[Bugfix][CI] fix typos (#34934 ) Signed-off-by: 1195343015 <1195343015@qq.com> Signed-off-by: Jiayi Yan <66017932+1195343015@users.noreply.github.com> Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2026-03-05 17:05:46 +00:00
Tianmu Li	8e7820131e	[Perf] Use dummy M for weight prepacking on x86 (#35890 ) Signed-off-by: Li, Tianmu <tianmu.li@intel.com>	2026-03-05 04:56:49 +00:00
Ma Jian	90805ff464	[CI/Build] CPU release supports both of AVX2 and AVX512 (#35466 ) Signed-off-by: jiang1.li <jiang1.li@intel.com> Co-authored-by: jiang1.li <jiang1.li@intel.com>	2026-02-28 04:35:21 +00:00
R3hankhan	34ce0ffd1f	[CPU][Perf] Accelerate Attention head for s390x using vector intrinsics (#34434 ) Signed-off-by: Rehan Khan <Rehan.Khan7@ibm.com> Co-authored-by: Li, Jiang <jiang1.li@intel.com>	2026-02-24 07:25:39 -08:00
Li, Jiang	05339a7b20	[Bugfix][CPU] Fix llama4 inference on CPU (#34321 ) Signed-off-by: jiang1.li <jiang1.li@intel.com>	2026-02-11 19:07:23 +08:00
R3hankhan	d1b837f0ae	[CPU] Enable FP16 (Half dtype) support for s390x (#34116 ) Signed-off-by: Rehan Khan <Rehan.Khan7@ibm.com>	2026-02-11 14:41:42 +08:00
Nikhil Gupta	caad9f1e01	[Fix] [CPU Backend] : Prepack weights for w8a8 oneDNN matmul (#33901 ) Signed-off-by: nikhil-arm <nikhil.gupta2@arm.com>	2026-02-09 18:04:41 +08:00
ihb2032	5a5c43511a	fix(cpu): fix mla_decode compilation on x86 without AVX512 (#34052 ) Signed-off-by: ihb2032 <hebome@foxmail.com> Co-authored-by: root <root@LAPTOP-FKNHV411.localdomain>	2026-02-09 08:55:41 +00:00
Gassan Salama	1363e3d6d5	[cpu][performance] CPU Paged Attention NEON BFMMLA BF16 Implementation (#32263 ) Signed-off-by: Gassan <gassan.salama@arm.com>	2026-02-06 15:01:48 +08:00
R3hankhan	ac04dd374f	[CPU] Add BF16 Kernel type for s390x (#33788 ) Signed-off-by: Rehan Khan <Rehan.Khan7@ibm.com>	2026-02-06 04:57:02 +00:00
R3hankhan	4dffc5e044	[CPU] Split attention dispatch by head_dim alignment (#32161 ) Signed-off-by: Rehan Khan <Rehan.Khan7@ibm.com>	2026-02-03 19:37:15 -08:00
Radu Salavat	e69c990c21	[Feature][CPU Backend]: Optimize ARM vectorization backend (#30329 ) Signed-off-by: Radu Salavat <radu.salavat@arm.com>	2026-02-02 20:17:56 -08:00
linhaifeng	fedf64332e	[Bugfix]: Fix display errors in TORCH_CHECK messages (#32942 ) Signed-off-by: linhaifeng <1371675203@qq.com> Co-authored-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com>	2026-01-31 09:48:48 -08:00
Li, Jiang	8311f083bd	[Bugfix][CPU] Fix thread num for shared memory communication (#33317 ) Signed-off-by: jiang1.li <jiang1.li@intel.com> Signed-off-by: Li, Jiang <bigpyj64@gmail.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>	2026-01-29 03:26:58 -08:00
Didier Durand	31b25f6516	[Doc]: fixing multiple typos in diverse files (#33256 ) Signed-off-by: Didier Durand <durand.didier@gmail.com> Signed-off-by: Didier Durand <2927957+didier-durand@users.noreply.github.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>	2026-01-29 16:52:03 +08:00
dolpm	58a05b0ca1	[fix] CPUDNNLGEMMHandler pointer baked into inductor artifact (#32913 ) Signed-off-by: dolpm <34420038+dolpm@users.noreply.github.com>	2026-01-26 16:59:44 -05:00
Li, Jiang	5da4c7d789	[CI/Build][CPU] Fix failed pooling tests and macos smoke test (#32907 ) Signed-off-by: jiang1.li <jiang1.li@intel.com> Signed-off-by: Li, Jiang <bigpyj64@gmail.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>	2026-01-23 10:48:20 +00:00
Fadi Arafeh	744ef30484	[CPU Backend] [Perf] Accelerate tensor-parallel/data-parallel inference across NUMA domains on Arm (#32792 ) Signed-off-by: Fadi Arafeh <fadi.arafeh@arm.com>	2026-01-22 18:55:23 +00:00
R3hankhan	8e27663b6a	[CPU] Add head sizes 80 and 112 with vec16 fallback (#31968 ) Signed-off-by: Rehan Khan <Rehan.Khan7@ibm.com>	2026-01-09 22:14:46 +08:00
skaraban3807	7cd288a4b3	[PERF] Add interleaved memory allocation to NUMA module (#30800 )	2025-12-24 13:47:49 +00:00
Nishidha Panpaliya	bd2b52fc2d	[CPU][Bugfix] Fix ppc64le CPU build (#30871 ) Signed-off-by: Nishidha Panpaliya <nishidha.panpaliya@partner.ibm.com>	2025-12-19 12:26:35 +00:00
Li, Jiang	f90d3636e2	[Bugfix][CPU] Fix Mac CPU build (#30955 ) Signed-off-by: jiang1.li <jiang1.li@intel.com>	2025-12-18 01:38:22 -08:00
Li, Jiang	e3ab93c896	[CPU] Refactor CPU fused MOE (#30531 ) Signed-off-by: jiang1.li <jiang1.li@intel.com>	2025-12-18 14:36:49 +08:00
Aditya Tewari	cebda2a4af	[CPU] Support for Whisper (#30062 ) Signed-off-by: Aditya Tewari <aditya.tewari@arm.com>	2025-12-10 04:58:42 -08:00
Wilson Wu	3bdd426636	Fix typos in comments across multiple files (#30345 ) Signed-off-by: Wilson Wu <iwilsonwu@gmail.com> Co-authored-by: Wentao Ye <44945378+yewentao256@users.noreply.github.com>	2025-12-09 20:05:28 -08:00
Elham	9843e332da	[CPU][Perf] Add fast vectorized exp impl from Arm Optimized Routines (#30068 ) Signed-off-by: Ubuntu <ubuntu@ip-10-252-30-150.eu-west-1.compute.internal> Signed-off-by: Elham Harirpoush <elham.harirpoush@arm.com> Co-authored-by: Ubuntu <ubuntu@ip-10-252-30-150.eu-west-1.compute.internal>	2025-12-05 13:09:20 +00:00
Li, Jiang	e2f56c309d	[CPU] Update torch 2.9.1 for CPU backend (#29664 ) Signed-off-by: jiang1.li <jiang1.li@intel.com>	2025-11-28 13:37:54 +00:00
R3hankhan	4de87866a8	[CPU][IBM Z] Fix BF16 support and vectorize math operations for s390x (#28926 ) Signed-off-by: Rehan Khan <Rehan.Khan7@ibm.com>	2025-11-24 12:08:09 +00:00
Fadi Arafeh	730bd35378	[perf][cpu] Accelerate paged attention GEMMs (QK, PV) on Arm CPUs with NEON (#29193 ) Signed-off-by: Fadi Arafeh <fadi.arafeh@arm.com>	2025-11-22 09:04:36 -08:00
skaraban3807	f1805db1a6	[Perf] These changes enhance the NUMA functionality of vllm for systems with more than one NUMA nodes per socket (#25559 ) Signed-off-by: Siddappa Karabannavar <siddappa.karabannavar@amd.com>	2025-11-21 14:13:52 +00:00
Boyuan Feng	a903d59ffa	cleanup at::Tag::needs_fixed_stride_order (#28974 ) Signed-off-by: Boyuan Feng <boyuan@meta.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>	2025-11-20 02:51:36 -08:00
j20120307	bbc6c2f1e5	[CI/Build] Fix broken build on Apple M1 (#28999 ) Signed-off-by: Kan Zhu <j20120307@gmail.com>	2025-11-19 11:07:22 +00:00
ihb2032	8151609583	refactor(cpu_types_scalar.hpp): Unify scalar loop implementations using unroll_loop (#28847 ) Signed-off-by: ihb2032 <1355790728@qq.com> Co-authored-by: lyd1992 <liuyudong@iscas.ac.cn>	2025-11-19 11:05:44 +00:00
Li, Jiang	20852c8f4c	[CPU] Refactor CPU WNA16 (#28826 ) Signed-off-by: jiang1.li <jiang1.li@intel.com>	2025-11-19 10:32:00 +08:00
tiehexue	e42bd8c2e3	Cast return value to int64_t for cache size (#28814 ) Signed-off-by: tiehexue <tiehexue@hotmail.com>	2025-11-17 16:02:32 +00:00
Li, Jiang	577bb34fff	[CPU][Bugfix] Fix _to_list in CPU model runner (#28824 ) Signed-off-by: jiang1.li <jiang1.li@intel.com>	2025-11-17 07:47:24 +00:00
Michael Goin	622e6106a9	[CPU][Bugfix] Fix Apple Silicon M1 compilation failure (#28681 ) Signed-off-by: mgoin <mgoin64@gmail.com>	2025-11-14 09:49:55 +08:00
Akash kaothalkar	86d15bfd8d	[Hardware][PowerPC] Fix fp16 compilation error for Power in cpu attention backend and bump oneDNN version (#28535 ) Signed-off-by: Akash Kaothalkar <akash.kaothalkar@ibm.com> Co-authored-by: Akash Kaothalkar <akash.kaothalkar@ibm.com>	2025-11-13 13:32:21 +00:00
usberkeley	4ab34f6ef1	Add NUMA node validation for CPU thread binding (#28555 ) Signed-off-by: Bradley <bradley.b.pitt@gmail.com>	2025-11-13 07:03:52 +00:00
Li, Jiang	7f829be7d3	[CPU] Refactor CPU attention backend (#27954 ) Signed-off-by: jiang1.li <jiang1.li@intel.com>	2025-11-12 09:43:06 +08:00
Fadi Arafeh	2080b05099	[cpu][fix] Fix onednn_mm crash on consecutive matmuls with same M,K,N and different dtype (#27472 ) Signed-off-by: Fadi Arafeh <fadi.arafeh@arm.com>	2025-10-24 15:57:48 +00:00

1 2 3

109 Commits