biondizzle/vllm - vllm - Gitea: Git with a cup of tea

Author	SHA1	Message	Date
Wei Zhao	59d53066d8	[Feature] Support CPU Offloading without Pytorch Pinned Memory that leads to doubled allocation (#32993 ) Signed-off-by: wzhao18 <wzhao18.sz@gmail.com> Co-authored-by: Michael Goin <mgoin64@gmail.com>	2026-02-13 08:11:26 -08:00
emricksini-h	325ab6b0a8	[Feature] OTEL tracing during loading (#31162 )	2026-02-05 16:59:28 -08:00
Kyle Sayers	f857a03f6b	[QeRL] Layerwise Reloading (#32133 ) Signed-off-by: Kyle Sayers <kylesayrs@gmail.com>	2026-01-30 08:50:05 -07:00
Matthew Bonanni	a608b4c6c2	[5/N][Attention] Finish eliminating `vllm/attention` folder (#32064 ) Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>	2026-01-27 10:02:51 -05:00
Cyrus Leung	2b8a38b6d6	[Model] Extend `collect_children` and `no_init_weights` contexts (#32757 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2026-01-22 08:20:27 +00:00
Cyrus Leung	4753f3bf69	[Model] Use context managers for encoder- and LM-only mode (#32605 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2026-01-20 11:43:38 +08:00
dengyunyang	8f8f469b1b	[BugFix] skip language model in Encoder (#30242 ) Signed-off-by: dengyunyang <584797741@qq.com>	2025-12-22 05:25:59 -08:00
wang.yuqi	9e77ffca3f	[Model][7/N] Improve all pooling task \| Deprecation as_reward_model. Extract hidden states prefer using new multi-vector retrieval API (#26686 ) Signed-off-by: wang.yuqi <yuqi.wang@daocloud.io>	2025-12-08 08:10:09 +00:00
Matthew Bonanni	430dd4d9eb	[Attention] Remove imports from `vllm/attention/__init__.py` (#29342 ) Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>	2025-11-26 10:53:15 -07:00
Cyrus Leung	ae66818379	[Misc] Fix pre-commit (#29238 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-11-22 06:48:01 -08:00
Nandan Vallamdasu	6965a392a4	Fix: Resolve circular import in model_loader/utils.py (#29189 ) Signed-off-by: nandan2003 <nandan.vallamdasu@outlook.com> Signed-off-by: Nandan Vallamdasu <nandan.vallamdasu@outlook.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com> Co-authored-by: Cyrus Leung <tlleungac@connect.ust.hk>	2025-11-22 04:58:22 -08:00
Jerry Zhang	da94c7c0eb	Move online quantization to `model.load_weights` (#26327 ) Signed-off-by: Jerry Zhang <jerryzh168@gmail.com>	2025-11-18 16:52:41 -08:00
Jonathan Chen	ca76486a16	[Chore] Separate out `vllm.utils.platform_utils.py` (#27374 ) Signed-off-by: Jonathan <chenleejonathan@gmail.com>	2025-10-23 19:08:06 +00:00
Isotr0py	6ac5e06f7c	[Chore] Clean up pytorch helper functions in `vllm.utils` (#26908 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Signed-off-by: isotr0py <2037008807@qq.com>	2025-10-18 09:48:22 -07:00
Harry Mellor	8fcaaf6a16	Update `Optional[x]` -> `x \| None` and `Union[x, y]` to `x \| y` (#26633 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-10-12 09:51:31 -07:00
Isotr0py	d1ddf340c8	[V0 deprecation] Remove `QKVCrossParallelLinear` implementation (#26475 ) Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-10-09 10:52:27 +00:00
Naveenraj Kamalakannan	e614ab7806	Separate MLAAttention class from Attention (#25103 ) Signed-off-by: Naveenraj Kamalakannan <therealnaveenkamal@gmail.com> Signed-off-by: Luka Govedič <ProExpertProg@users.noreply.github.com> Co-authored-by: Luka Govedič <ProExpertProg@users.noreply.github.com>	2025-10-08 17:11:11 -07:00
Harry Mellor	d6953beb91	Convert formatting to use `ruff` instead of `yapf` + `isort` (#26247 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-10-05 07:06:22 -07:00
Jerry Zhang	c31246800c	Support RL online quantization with torchao (#23014 ) Signed-off-by: Jerry Zhang <jerryzh168@gmail.com>	2025-10-01 16:39:29 -07:00
Cyrus Leung	89fa54e6f7	[Optimization] Use a cheaper cache key in `get_model_architecture` (#25682 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-09-25 17:54:20 -04:00
Cyrus Leung	c60e6137f0	[Optimization] Avoid repeated model architecture conversion for pooling models (#25261 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-09-20 13:30:22 +08:00
Harry Mellor	aed16879a9	Move `ModelConfig` from `config/__init__.py` to `config/model.py` (#25252 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-09-19 16:22:33 +00:00
Maximilien de Bayser	e090b7b45b	Enable conversion of multimodal models to pooling tasks (#24451 ) Signed-off-by: Max de Bayser <mbayser@br.ibm.com>	2025-09-12 03:30:41 +00:00
Jee Jee Li	8d7f39b48c	[Model] Remove quantized mixtral (#24437 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-09-08 11:02:14 -07:00
Cyrus Leung	86ae693f20	[Deprecation][2/N] Replace `--task` with `--runner` and `--convert` (#21470 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com> Co-authored-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-07-27 19:42:40 -07:00
Harry Mellor	13abd0eaf9	[Model] Officially support Emu3 with Transformers backend (#21319 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-07-24 03:22:12 -07:00
youkaichao	2f5c14de6a	add clear messages for deprecated models (#21424 ) Signed-off-by: youkaichao <youkaichao@gmail.com>	2025-07-23 00:03:16 -07:00
Raushan Turganbay	9499e26e2a	[Model] Support VLMs with transformers backend (#20543 ) Signed-off-by: raushan <raushan@huggingface.co> Signed-off-by: Isotr0py <2037008807@qq.com> Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn> Co-authored-by: Isotr0py <2037008807@qq.com> Co-authored-by: Isotr0py <mozf@mail2.sysu.edu.cn> Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com>	2025-07-20 13:25:50 +00:00
wang.yuqi	ca4eb82bcb	[Model] Re-add the implicit conversion feature for as_seq_cls_model (#21103 ) Signed-off-by: wang.yuqi <noooop@126.com>	2025-07-18 07:15:07 +00:00
Jee Jee Li	a99b9f7dee	[Quantization] add BNB for MixtralForCausalLM (#20893 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-07-14 07:34:34 +00:00
wang.yuqi	6f1229f91d	[Model][2/N] Automatic conversion of CrossEncoding model (#19978 ) Signed-off-by: wang.yuqi <noooop@126.com>	2025-07-03 13:59:23 +00:00
Cyrus Leung	b024a42e93	[Core] Move multimodal placeholder from chat utils to model definition (#20355 ) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>	2025-07-03 08:18:30 +00:00
Kyle Sayers	9025a9a705	[Quant] [Bugfix] Fix quantization config matching with `hf_to_vllm_mapper` (#20046 )	2025-07-01 19:20:34 +09:00
youkaichao	d70bc7c029	[torch.compile] reorganize the cache directory to support compiling multiple models (#19064 ) Signed-off-by: youkaichao <youkaichao@gmail.com>	2025-06-13 15:23:25 +08:00
Simon Mo	02f0c7b220	[Misc] Add SPDX-FileCopyrightText (#19100 ) Signed-off-by: simon-mo <simon.mo@hey.com>	2025-06-03 11:20:17 -07:00
Tristan Leclercq	6220f3c6b0	[Bugfix] Fix transformers model impl ignored for mixtral quant (#18602 ) Signed-off-by: Tristan Leclercq <tristanleclercq@gmail.com>	2025-05-23 05:54:13 -07:00
Mark McLoughlin	c6b636f9fb	[V1][Spec Decoding] Use model_loader.get_model() to load models (#18273 ) Signed-off-by: Mark McLoughlin <markmc@redhat.com>	2025-05-23 02:05:44 +00:00
Harry Mellor	07ad27121f	Update deprecated type hinting in `model_loader` (#18130 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-05-15 04:00:21 -07:00
Bowen Bao	db593aa67f	[Quantization] Quark MXFP4 format loading (#16943 )	2025-05-07 15:05:05 -04:00
Jee Jee Li	822de7fb94	[Misc] Split model loader (#17712 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-05-07 12:42:26 +08:00
Harry Mellor	2c8ed8ee48	More informative error when using Transformers backend (#16988 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-04-23 19:54:03 -07:00
Harry Mellor	8e630d680e	Improve Transformers backend model loading QoL (#17039 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-04-23 07:33:51 -07:00
Harry Mellor	a76f547e11	Rename fallback model and refactor supported models section (#15829 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-03-31 22:49:41 -07:00
Harry Mellor	d4bfc23ef0	Fix Transformers backend compatibility check (#15290 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>	2025-03-31 10:27:07 -07:00
Harry Mellor	cf5c8f1686	Separate base model from `TransformersModel` (#15467 ) Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com> Signed-off-by: Isotr0py <2037008807@qq.com> Co-authored-by: Isotr0py <2037008807@qq.com> Co-authored-by: Isotr0py <mozf@mail2.sysu.edu.cn>	2025-03-26 18:13:38 +08:00
ℍ𝕠𝕝𝕝𝕠𝕨 𝕄𝕒𝕟	948ab03e7e	[Bugfix][V1] Avoid importing PreTrainedModel (#15366 ) Signed-off-by: Hollow Man <hollowman@opensuse.org>	2025-03-24 10:33:12 +00:00
Robert Shaw	d4d93db2c5	[V1] V1 Enablement Oracle (#13726 ) Signed-off-by: rshaw@neuralmagic.com <rshaw@neuralmagic.com> Co-authored-by: rshaw@neuralmagic.com <rshaw@neuralmagic.com> Co-authored-by: Nicolò Lucchesi <nlucches@redhat.com> Co-authored-by: Tyler Michael Smith <tyler@neuralmagic.com> Co-authored-by: Michael Goin <michael@neuralmagic.com>	2025-03-14 22:02:20 -07:00
Isotr0py	8cf97f8661	[Bugfix] Fix failing transformers dynamic module resolving with spawn multiproc method (#13403 ) Signed-off-by: Isotr0py <2037008807@qq.com>	2025-02-18 10:25:53 +00:00
Kyle Sayers	7ff7a638b6	[Model][Quant] Fix GLM, Fix fused module mappings for quantization (#12634 ) Signed-off-by: mgoin <michael@neuralmagic.com> Signed-off-by: Kyle Sayers <kylesayrs@gmail.com> Co-authored-by: mgoin <michael@neuralmagic.com>	2025-02-05 05:32:06 +00:00
Jee Jee Li	96b23621c1	[Misc] Add BNB quantization for Whisper (#12381 ) Signed-off-by: Jee Jee Li <pandaleefree@gmail.com>	2025-02-04 16:27:36 +08:00

1 2

66 Commits