[Model][0/N] Improve all pooling task | clean up (#25817)

Signed-off-by: wang.yuqi <noooop@126.com>
2025-10-13 16:44:50 +08:00
parent 4f207c7174
commit 767c3ab869
19 changed files with 198 additions and 189 deletions
--- a/vllm/config/model.py
+++ b/vllm/config/model.py
@@ -30,6 +30,7 @@ from vllm.transformers_utils.config import (
    get_sentence_transformer_tokenizer_config,
    is_encoder_decoder,
    is_interleaved,
+    try_get_dense_modules,
    try_get_generation_config,
    try_get_safetensors_metadata,
    try_get_tokenizer_config,
@@ -1681,6 +1682,20 @@ class ModelConfig:
        logger.debug_once("head dtype: %s", head_dtype)
        return head_dtype

+    @property
+    def hidden_size(self):
+        if hasattr(self.hf_config, "hidden_size"):
+            return self.hf_config.hidden_size
+        text_config = self.hf_config.get_text_config()
+        return text_config.hidden_size
+
+    @property
+    def embedding_size(self):
+        dense_modules = try_get_dense_modules(self.model, revision=self.revision)
+        if dense_modules is not None:
+            return dense_modules[-1]["out_features"]
+        return self.hidden_size
+
    def get_and_verify_max_len(self, max_model_len: int):
        # Consider max_model_len in tokenizer_config only when
        # pooling models use absolute position_embedding.