[Model][Last/4] Automatic conversion of CrossEncoding model (#19675)

Signed-off-by: wang.yuqi <noooop@126.com>
2025-07-07 22:46:04 +08:00
parent 1ad69e8375
commit 110df74332
12 changed files with 373 additions and 14 deletions
--- a/vllm/config.py
+++ b/vllm/config.py
@@ -1449,6 +1449,12 @@ class ModelConfig:
    def matryoshka_dimensions(self):
        return getattr(self.hf_config, "matryoshka_dimensions", None)

+    @property
+    def use_pad_token(self) -> bool:
+        # cross_encoder models defaults to using pad_token.
+        # `llm as reranker` models defaults to not using pad_token.
+        return getattr(self.hf_config, "use_pad_token", True)
+
    def get_and_verify_max_len(self, max_model_len: int):
        # For pooling models, the tokenizer's `model_max_length` is often a
        # reliable source for the maximum sequence length. However, for