Convert formatting to use ruff instead of yapf + isort (#26247)

Signed-off-by: Harry Mellor <19981378+hmellor@users.noreply.github.com>
2025-10-05 15:06:22 +01:00
parent 17edd8a807
commit d6953beb91
1508 changed files with 115244 additions and 94146 deletions
--- a/tests/models/language/pooling_mteb_test/mteb_utils.py
+++ b/tests/models/language/pooling_mteb_test/mteb_utils.py
@@ -12,8 +12,7 @@ import requests
 import torch

 import tests.ci_envs as ci_envs
-from tests.models.utils import (EmbedModelInfo, RerankModelInfo,
-                                check_embeddings_close)
+from tests.models.utils import EmbedModelInfo, RerankModelInfo, check_embeddings_close

 # Most embedding models on the STS12 task (See #17175):
 # - Model implementation and minor changes in tensor dtype
@@ -30,7 +29,6 @@ MTEB_RERANK_TOL = 2e-3


 class VllmMtebEncoder(mteb.Encoder):
-
    def __init__(self, vllm_model):
        super().__init__()
        self.llm = vllm_model
@@ -53,8 +51,7 @@ class VllmMtebEncoder(mteb.Encoder):

    def predict(
        self,
-        sentences: list[tuple[str, str,
-                              Optional[str]]],  # query, corpus, prompt
+        sentences: list[tuple[str, str, Optional[str]]],  # query, corpus, prompt
        *args,
        **kwargs,
    ) -> np.ndarray:
@@ -64,17 +61,15 @@ class VllmMtebEncoder(mteb.Encoder):
        queries = [s[0] for s in sentences]
        corpus = [s[1] for s in sentences]

-        outputs = self.llm.score(queries,
-                                 corpus,
-                                 truncate_prompt_tokens=-1,
-                                 use_tqdm=False)
+        outputs = self.llm.score(
+            queries, corpus, truncate_prompt_tokens=-1, use_tqdm=False
+        )
        scores = np.array(outputs)
        scores = scores[np.argsort(r)]
        return scores


 class OpenAIClientMtebEncoder(mteb.Encoder):
-
    def __init__(self, model_name: str, client):
        super().__init__()
        self.model_name = model_name
@@ -87,8 +82,9 @@ class OpenAIClientMtebEncoder(mteb.Encoder):
        r = self.rng.permutation(len(sentences))
        sentences = [sentences[i] for i in r]

-        embeddings = self.client.embeddings.create(model=self.model_name,
-                                                   input=sentences)
+        embeddings = self.client.embeddings.create(
+            model=self.model_name, input=sentences
+        )
        outputs = [d.embedding for d in embeddings.data]
        embeds = np.array(outputs)
        embeds = embeds[np.argsort(r)]
@@ -96,7 +92,6 @@ class OpenAIClientMtebEncoder(mteb.Encoder):


 class ScoreClientMtebEncoder(mteb.Encoder):
-
    def __init__(self, model_name: str, url):
        super().__init__()
        self.model_name = model_name
@@ -105,8 +100,7 @@ class ScoreClientMtebEncoder(mteb.Encoder):

    def predict(
        self,
-        sentences: list[tuple[str, str,
-                              Optional[str]]],  # query, corpus, prompt
+        sentences: list[tuple[str, str, Optional[str]]],  # query, corpus, prompt
        *args,
        **kwargs,
    ) -> np.ndarray:
@@ -122,27 +116,30 @@ class ScoreClientMtebEncoder(mteb.Encoder):
        return scores

    def get_score(self, query, corpus):
-        response = requests.post(self.url,
-                                 json={
-                                     "model": self.model_name,
-                                     "text_1": query,
-                                     "text_2": corpus,
-                                     "truncate_prompt_tokens": -1,
-                                 }).json()
-        return response['data'][0]["score"]
+        response = requests.post(
+            self.url,
+            json={
+                "model": self.model_name,
+                "text_1": query,
+                "text_2": corpus,
+                "truncate_prompt_tokens": -1,
+            },
+        ).json()
+        return response["data"][0]["score"]


 class RerankClientMtebEncoder(ScoreClientMtebEncoder):
-
    def get_score(self, query, corpus):
-        response = requests.post(self.url,
-                                 json={
-                                     "model": self.model_name,
-                                     "query": query,
-                                     "documents": [corpus],
-                                     "truncate_prompt_tokens": -1,
-                                 }).json()
-        return response['results'][0]["relevance_score"]
+        response = requests.post(
+            self.url,
+            json={
+                "model": self.model_name,
+                "query": query,
+                "documents": [corpus],
+                "truncate_prompt_tokens": -1,
+            },
+        ).json()
+        return response["results"][0]["relevance_score"]


 def run_mteb_embed_task(encoder, tasks):
@@ -161,12 +158,14 @@ def run_mteb_embed_task(encoder, tasks):
    return main_score


-def mteb_test_embed_models(hf_runner,
-                           vllm_runner,
-                           model_info: EmbedModelInfo,
-                           vllm_extra_kwargs=None,
-                           hf_model_callback=None,
-                           atol=MTEB_EMBED_TOL):
+def mteb_test_embed_models(
+    hf_runner,
+    vllm_runner,
+    model_info: EmbedModelInfo,
+    vllm_extra_kwargs=None,
+    hf_model_callback=None,
+    atol=MTEB_EMBED_TOL,
+):
    # A model family has many models with the same architecture,
    # and we don't need to test each one.
    if not ci_envs.VLLM_CI_NO_SKIP and not model_info.enable_test:
@@ -187,15 +186,15 @@ def mteb_test_embed_models(hf_runner,
    if ci_envs.VLLM_CI_HEAD_DTYPE is not None:
        if "hf_overrides" not in vllm_extra_kwargs:
            vllm_extra_kwargs["hf_overrides"] = {}
-        vllm_extra_kwargs["hf_overrides"][
-            "head_dtype"] = ci_envs.VLLM_CI_HEAD_DTYPE
-
-    with vllm_runner(model_info.name,
-                     runner="pooling",
-                     max_model_len=None,
-                     enforce_eager=True,
-                     **vllm_extra_kwargs) as vllm_model:
+        vllm_extra_kwargs["hf_overrides"]["head_dtype"] = ci_envs.VLLM_CI_HEAD_DTYPE

+    with vllm_runner(
+        model_info.name,
+        runner="pooling",
+        max_model_len=None,
+        enforce_eager=True,
+        **vllm_extra_kwargs,
+    ) as vllm_model:
        model_config = vllm_model.llm.llm_engine.model_config

        # Confirm whether vllm is using the correct architecture
@@ -204,28 +203,29 @@ def mteb_test_embed_models(hf_runner,

        # Confirm whether vllm uses the correct default_pooling_type, which
        # relates to whether chunked prefill and prefix caching are enabled
-        assert (model_config._model_info.default_pooling_type ==
-                model_info.default_pooling_type)
+        assert (
+            model_config._model_info.default_pooling_type
+            == model_info.default_pooling_type
+        )

-        vllm_main_score = run_mteb_embed_task(VllmMtebEncoder(vllm_model),
-                                              MTEB_EMBED_TASKS)
+        vllm_main_score = run_mteb_embed_task(
+            VllmMtebEncoder(vllm_model), MTEB_EMBED_TASKS
+        )
        vllm_dtype = vllm_model.llm.llm_engine.model_config.dtype
        head_dtype = model_config.head_dtype

        # Test embed_dims, isnan and whether to use normalize
-        vllm_outputs = vllm_model.embed(example_prompts,
-                                        truncate_prompt_tokens=-1)
+        vllm_outputs = vllm_model.embed(example_prompts, truncate_prompt_tokens=-1)
        assert not torch.any(torch.isnan(torch.tensor(vllm_outputs)))

    # Accelerate mteb test by setting
    # SentenceTransformers mteb score to a constant
    if model_info.mteb_score is None:
        with hf_runner(
-                model_info.name,
-                is_sentence_transformer=True,
-                dtype=ci_envs.VLLM_CI_HF_DTYPE or model_info.hf_dtype,
+            model_info.name,
+            is_sentence_transformer=True,
+            dtype=ci_envs.VLLM_CI_HF_DTYPE or model_info.hf_dtype,
        ) as hf_model:
-
            # e.g. setting default parameters for the encode method of hf_runner
            if hf_model_callback is not None:
                hf_model_callback(hf_model)
@@ -247,8 +247,7 @@ def mteb_test_embed_models(hf_runner,
        st_dtype = "Constant"

    print("Model:", model_info.name)
-    print("VLLM:", f"dtype:{vllm_dtype}", f"head_dtype:{head_dtype}",
-          vllm_main_score)
+    print("VLLM:", f"dtype:{vllm_dtype}", f"head_dtype:{head_dtype}", vllm_main_score)
    print("SentenceTransformers:", st_dtype, st_main_score)
    print("Difference:", st_main_score - vllm_main_score)

@@ -282,26 +281,21 @@ def run_mteb_rerank(cross_encoder, tasks, languages):
            top_k=10,
            save_predictions=True,
            output_folder=f"{results_folder}/stage2",
-            previous_results=
-            f"{results_folder}/stage1/NFCorpus_{subset}_predictions.json",
+            previous_results=f"{results_folder}/stage1/NFCorpus_{subset}_predictions.json",
            encode_kwargs={"show_progress_bar": False},
        )
        main_score = results[0].scores["test"][0]["main_score"]
    return main_score


-def mteb_test_rerank_models_hf(hf_runner,
-                               model_name,
-                               hf_dtype="float32",
-                               hf_model_callback=None):
-    with hf_runner(model_name, is_cross_encoder=True,
-                   dtype=hf_dtype) as hf_model:
-
+def mteb_test_rerank_models_hf(
+    hf_runner, model_name, hf_dtype="float32", hf_model_callback=None
+):
+    with hf_runner(model_name, is_cross_encoder=True, dtype=hf_dtype) as hf_model:
        original_predict = hf_model.predict

        def _predict(
-            sentences: list[tuple[str, str,
-                                  Optional[str]]],  # query, corpus, prompt
+            sentences: list[tuple[str, str, Optional[str]]],  # query, corpus, prompt
            *args,
            **kwargs,
        ):
@@ -315,20 +309,22 @@ def mteb_test_rerank_models_hf(hf_runner,
        if hf_model_callback is not None:
            hf_model_callback(hf_model)

-        st_main_score = run_mteb_rerank(hf_model,
-                                        tasks=MTEB_RERANK_TASKS,
-                                        languages=MTEB_RERANK_LANGS)
+        st_main_score = run_mteb_rerank(
+            hf_model, tasks=MTEB_RERANK_TASKS, languages=MTEB_RERANK_LANGS
+        )
        st_dtype = next(hf_model.model.model.parameters()).dtype
    return st_main_score, st_dtype


-def mteb_test_rerank_models(hf_runner,
-                            vllm_runner,
-                            model_info: RerankModelInfo,
-                            vllm_extra_kwargs=None,
-                            hf_model_callback=None,
-                            vllm_mteb_encoder=VllmMtebEncoder,
-                            atol=MTEB_RERANK_TOL):
+def mteb_test_rerank_models(
+    hf_runner,
+    vllm_runner,
+    model_info: RerankModelInfo,
+    vllm_extra_kwargs=None,
+    hf_model_callback=None,
+    vllm_mteb_encoder=VllmMtebEncoder,
+    atol=MTEB_RERANK_TOL,
+):
    # A model family has many models with the same architecture,
    # and we don't need to test each one.
    if not ci_envs.VLLM_CI_NO_SKIP and not model_info.enable_test:
@@ -346,33 +342,37 @@ def mteb_test_rerank_models(hf_runner,
    if ci_envs.VLLM_CI_HEAD_DTYPE is not None:
        if "hf_overrides" not in vllm_extra_kwargs:
            vllm_extra_kwargs["hf_overrides"] = {}
-        vllm_extra_kwargs["hf_overrides"][
-            "head_dtype"] = ci_envs.VLLM_CI_HEAD_DTYPE
-
-    with vllm_runner(model_info.name,
-                     runner="pooling",
-                     max_model_len=None,
-                     max_num_seqs=8,
-                     enforce_eager=True,
-                     **vllm_extra_kwargs) as vllm_model:
+        vllm_extra_kwargs["hf_overrides"]["head_dtype"] = ci_envs.VLLM_CI_HEAD_DTYPE

+    with vllm_runner(
+        model_info.name,
+        runner="pooling",
+        max_model_len=None,
+        max_num_seqs=8,
+        enforce_eager=True,
+        **vllm_extra_kwargs,
+    ) as vllm_model:
        model_config = vllm_model.llm.llm_engine.model_config

        # Confirm whether vllm is using the correct architecture
        if model_info.architecture:
-            assert (model_info.architecture in model_config.architectures)
+            assert model_info.architecture in model_config.architectures

        # Score API is only enabled for num_labels == 1
        assert model_config.hf_config.num_labels == 1

        # Confirm whether vllm uses the correct default_pooling_type, which
        # relates to whether chunked prefill and prefix caching are enabled
-        assert (model_config._model_info.default_pooling_type ==
-                model_info.default_pooling_type)
+        assert (
+            model_config._model_info.default_pooling_type
+            == model_info.default_pooling_type
+        )

-        vllm_main_score = run_mteb_rerank(vllm_mteb_encoder(vllm_model),
-                                          tasks=MTEB_RERANK_TASKS,
-                                          languages=MTEB_RERANK_LANGS)
+        vllm_main_score = run_mteb_rerank(
+            vllm_mteb_encoder(vllm_model),
+            tasks=MTEB_RERANK_TASKS,
+            languages=MTEB_RERANK_LANGS,
+        )
        vllm_dtype = model_config.dtype
        head_dtype = model_config.head_dtype

@@ -380,14 +380,14 @@ def mteb_test_rerank_models(hf_runner,
    # SentenceTransformers mteb score to a constant
    if model_info.mteb_score is None:
        st_main_score, st_dtype = mteb_test_rerank_models_hf(
-            hf_runner, model_info.name, model_info.hf_dtype, hf_model_callback)
+            hf_runner, model_info.name, model_info.hf_dtype, hf_model_callback
+        )
    else:
        st_main_score = model_info.mteb_score
        st_dtype = "Constant"

    print("Model:", model_info.name)
-    print("VLLM:", f"dtype:{vllm_dtype}", f"head_dtype:{head_dtype}",
-          vllm_main_score)
+    print("VLLM:", f"dtype:{vllm_dtype}", f"head_dtype:{head_dtype}", vllm_main_score)
    print("SentenceTransformers:", st_dtype, st_main_score)
    print("Difference:", st_main_score - vllm_main_score)

--- a/tests/models/language/pooling_mteb_test/test_baai.py
+++ b/tests/models/language/pooling_mteb_test/test_baai.py
@@ -2,67 +2,76 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 import pytest

-from tests.models.language.pooling.embed_utils import (
-    correctness_test_embed_models)
-from tests.models.utils import (CLSPoolingEmbedModelInfo,
-                                CLSPoolingRerankModelInfo, EmbedModelInfo,
-                                LASTPoolingEmbedModelInfo, RerankModelInfo)
+from tests.models.language.pooling.embed_utils import correctness_test_embed_models
+from tests.models.utils import (
+    CLSPoolingEmbedModelInfo,
+    CLSPoolingRerankModelInfo,
+    EmbedModelInfo,
+    LASTPoolingEmbedModelInfo,
+    RerankModelInfo,
+)

 from .mteb_utils import mteb_test_embed_models, mteb_test_rerank_models

 MODELS = [
    ########## BertModel
-    CLSPoolingEmbedModelInfo("BAAI/bge-base-en",
-                             architecture="BertModel",
-                             mteb_score=0.779336792,
-                             enable_test=True),
-    CLSPoolingEmbedModelInfo("BAAI/bge-base-zh",
-                             architecture="BertModel",
-                             enable_test=False),
-    CLSPoolingEmbedModelInfo("BAAI/bge-small-en",
-                             architecture="BertModel",
-                             enable_test=False),
-    CLSPoolingEmbedModelInfo("BAAI/bge-small-zh",
-                             architecture="BertModel",
-                             enable_test=False),
-    CLSPoolingEmbedModelInfo("BAAI/bge-large-en",
-                             architecture="BertModel",
-                             enable_test=False),
-    CLSPoolingEmbedModelInfo("BAAI/bge-large-zh",
-                             architecture="BertModel",
-                             enable_test=False),
-    CLSPoolingEmbedModelInfo("BAAI/bge-large-zh-noinstruct",
-                             architecture="BertModel",
-                             enable_test=False),
-    CLSPoolingEmbedModelInfo("BAAI/bge-base-en-v1.5",
-                             architecture="BertModel",
-                             enable_test=False),
-    CLSPoolingEmbedModelInfo("BAAI/bge-base-zh-v1.5",
-                             architecture="BertModel",
-                             enable_test=False),
-    CLSPoolingEmbedModelInfo("BAAI/bge-small-en-v1.5",
-                             architecture="BertModel",
-                             enable_test=False),
-    CLSPoolingEmbedModelInfo("BAAI/bge-small-zh-v1.5",
-                             architecture="BertModel",
-                             enable_test=False),
-    CLSPoolingEmbedModelInfo("BAAI/bge-large-en-v1.5",
-                             architecture="BertModel",
-                             enable_test=False),
-    CLSPoolingEmbedModelInfo("BAAI/bge-large-zh-v1.5",
-                             architecture="BertModel",
-                             enable_test=False),
+    CLSPoolingEmbedModelInfo(
+        "BAAI/bge-base-en",
+        architecture="BertModel",
+        mteb_score=0.779336792,
+        enable_test=True,
+    ),
+    CLSPoolingEmbedModelInfo(
+        "BAAI/bge-base-zh", architecture="BertModel", enable_test=False
+    ),
+    CLSPoolingEmbedModelInfo(
+        "BAAI/bge-small-en", architecture="BertModel", enable_test=False
+    ),
+    CLSPoolingEmbedModelInfo(
+        "BAAI/bge-small-zh", architecture="BertModel", enable_test=False
+    ),
+    CLSPoolingEmbedModelInfo(
+        "BAAI/bge-large-en", architecture="BertModel", enable_test=False
+    ),
+    CLSPoolingEmbedModelInfo(
+        "BAAI/bge-large-zh", architecture="BertModel", enable_test=False
+    ),
+    CLSPoolingEmbedModelInfo(
+        "BAAI/bge-large-zh-noinstruct", architecture="BertModel", enable_test=False
+    ),
+    CLSPoolingEmbedModelInfo(
+        "BAAI/bge-base-en-v1.5", architecture="BertModel", enable_test=False
+    ),
+    CLSPoolingEmbedModelInfo(
+        "BAAI/bge-base-zh-v1.5", architecture="BertModel", enable_test=False
+    ),
+    CLSPoolingEmbedModelInfo(
+        "BAAI/bge-small-en-v1.5", architecture="BertModel", enable_test=False
+    ),
+    CLSPoolingEmbedModelInfo(
+        "BAAI/bge-small-zh-v1.5", architecture="BertModel", enable_test=False
+    ),
+    CLSPoolingEmbedModelInfo(
+        "BAAI/bge-large-en-v1.5", architecture="BertModel", enable_test=False
+    ),
+    CLSPoolingEmbedModelInfo(
+        "BAAI/bge-large-zh-v1.5", architecture="BertModel", enable_test=False
+    ),
    ########## XLMRobertaModel
-    CLSPoolingEmbedModelInfo("BAAI/bge-m3",
-                             architecture="XLMRobertaModel",
-                             mteb_score=0.787343078,
-                             enable_test=True),
+    CLSPoolingEmbedModelInfo(
+        "BAAI/bge-m3",
+        architecture="XLMRobertaModel",
+        mteb_score=0.787343078,
+        enable_test=True,
+    ),
    ########## Qwen2Model
-    LASTPoolingEmbedModelInfo("BAAI/bge-code-v1",
-                              architecture="Qwen2Model",
-                              mteb_score=0.75724465,
-                              dtype="float32",
-                              enable_test=True),
+    LASTPoolingEmbedModelInfo(
+        "BAAI/bge-code-v1",
+        architecture="Qwen2Model",
+        mteb_score=0.75724465,
+        dtype="float32",
+        enable_test=True,
+    ),
 ]

 RERANK_MODELS = [
@@ -71,33 +80,35 @@ RERANK_MODELS = [
        "BAAI/bge-reranker-base",
        architecture="XLMRobertaForSequenceClassification",
        mteb_score=0.32398,
-        enable_test=True),
+        enable_test=True,
+    ),
    CLSPoolingRerankModelInfo(
        "BAAI/bge-reranker-large",
        architecture="XLMRobertaForSequenceClassification",
-        enable_test=False),
+        enable_test=False,
+    ),
    CLSPoolingRerankModelInfo(
        "BAAI/bge-reranker-v2-m3",
        architecture="XLMRobertaForSequenceClassification",
-        enable_test=False)
+        enable_test=False,
+    ),
 ]


@pytest.mark.parametrize("model_info", MODELS)
-def test_embed_models_mteb(hf_runner, vllm_runner,
-                           model_info: EmbedModelInfo) -> None:
+def test_embed_models_mteb(hf_runner, vllm_runner, model_info: EmbedModelInfo) -> None:
    mteb_test_embed_models(hf_runner, vllm_runner, model_info)


@pytest.mark.parametrize("model_info", MODELS)
-def test_embed_models_correctness(hf_runner, vllm_runner,
-                                  model_info: EmbedModelInfo,
-                                  example_prompts) -> None:
-    correctness_test_embed_models(hf_runner, vllm_runner, model_info,
-                                  example_prompts)
+def test_embed_models_correctness(
+    hf_runner, vllm_runner, model_info: EmbedModelInfo, example_prompts
+) -> None:
+    correctness_test_embed_models(hf_runner, vllm_runner, model_info, example_prompts)


@pytest.mark.parametrize("model_info", RERANK_MODELS)
-def test_rerank_models_mteb(hf_runner, vllm_runner,
-                            model_info: RerankModelInfo) -> None:
+def test_rerank_models_mteb(
+    hf_runner, vllm_runner, model_info: RerankModelInfo
+) -> None:
    mteb_test_rerank_models(hf_runner, vllm_runner, model_info)
--- a/tests/models/language/pooling_mteb_test/test_bge_reranker_v2_gemma.py
+++ b/tests/models/language/pooling_mteb_test/test_bge_reranker_v2_gemma.py
@@ -8,53 +8,50 @@ import torch

 from tests.conftest import HfRunner
 from tests.models.language.pooling_mteb_test.mteb_utils import (
-    VllmMtebEncoder, mteb_test_rerank_models)
+    VllmMtebEncoder,
+    mteb_test_rerank_models,
+)
 from tests.models.utils import LASTPoolingRerankModelInfo, RerankModelInfo

 RERANK_MODELS = [
-    LASTPoolingRerankModelInfo("BAAI/bge-reranker-v2-gemma",
-                               architecture="GemmaForSequenceClassification",
-                               mteb_score=0.33757,
-                               hf_overrides={
-                                   "architectures":
-                                   ["GemmaForSequenceClassification"],
-                                   "classifier_from_token": ["Yes"],
-                                   "method":
-                                   "no_post_processing",
-                               }),
+    LASTPoolingRerankModelInfo(
+        "BAAI/bge-reranker-v2-gemma",
+        architecture="GemmaForSequenceClassification",
+        mteb_score=0.33757,
+        hf_overrides={
+            "architectures": ["GemmaForSequenceClassification"],
+            "classifier_from_token": ["Yes"],
+            "method": "no_post_processing",
+        },
+    ),
 ]

 PROMPT = "Given a query A and a passage B, determine whether the passage contains an answer to the query by providing a prediction of either 'Yes' or 'No'."  # noqa: E501


 class GemmaRerankerHfRunner(HfRunner):
-
-    def __init__(self,
-                 model_name: str,
-                 dtype: str = "auto",
-                 *args: Any,
-                 **kwargs: Any) -> None:
+    def __init__(
+        self, model_name: str, dtype: str = "auto", *args: Any, **kwargs: Any
+    ) -> None:
        from transformers import AutoModelForCausalLM, AutoTokenizer
+
        super().__init__(model_name, dtype, auto_cls=AutoModelForCausalLM)
-        self.tokenizer = AutoTokenizer.from_pretrained(model_name,
-                                                       padding_side='left')
+        self.tokenizer = AutoTokenizer.from_pretrained(model_name, padding_side="left")
        self.yes_loc = self.tokenizer.convert_tokens_to_ids("Yes")

    @torch.no_grad()
-    def predict(self, prompts: list[list[str]], *args,
-                **kwargs) -> torch.Tensor:
-
+    def predict(self, prompts: list[list[str]], *args, **kwargs) -> torch.Tensor:
        def get_inputs(pairs, tokenizer, prompt=None):
            if prompt is None:
                prompt = PROMPT

            sep = "\n"
-            prompt_inputs = tokenizer(prompt,
-                                      return_tensors=None,
-                                      add_special_tokens=False)["input_ids"]
-            sep_inputs = tokenizer(sep,
-                                   return_tensors=None,
-                                   add_special_tokens=False)["input_ids"]
+            prompt_inputs = tokenizer(
+                prompt, return_tensors=None, add_special_tokens=False
+            )["input_ids"]
+            sep_inputs = tokenizer(sep, return_tensors=None, add_special_tokens=False)[
+                "input_ids"
+            ]
            inputs = []
            for query, passage in pairs:
                query_inputs = tokenizer(
@@ -78,8 +75,7 @@ class GemmaRerankerHfRunner(HfRunner):
                    return_token_type_ids=False,
                    add_special_tokens=False,
                )
-                item["input_ids"] = item[
-                    "input_ids"] + sep_inputs + prompt_inputs
+                item["input_ids"] = item["input_ids"] + sep_inputs + prompt_inputs
                item["attention_mask"] = [1] * len(item["input_ids"])
                inputs.append(item)
            return tokenizer.pad(
@@ -95,14 +91,19 @@ class GemmaRerankerHfRunner(HfRunner):
            inputs = inputs.to(self.model.device)
            _n_tokens = inputs["input_ids"].shape[1]
            logits = self.model(**inputs, return_dict=True).logits
-            _scores = (logits[:, -1,
-                              self.yes_loc].view(-1, ).float().sigmoid())
+            _scores = (
+                logits[:, -1, self.yes_loc]
+                .view(
+                    -1,
+                )
+                .float()
+                .sigmoid()
+            )
            scores.append(_scores[0].item())
        return torch.Tensor(scores)


 class GemmaMtebEncoder(VllmMtebEncoder):
-
    def __init__(self, *args, **kwargs):
        super().__init__(*args, **kwargs)
        self.query_template = "A: {query}\n"
@@ -110,12 +111,10 @@ class GemmaMtebEncoder(VllmMtebEncoder):

    def predict(
        self,
-        sentences: list[tuple[str, str,
-                              Optional[str]]],  # query, corpus, prompt
+        sentences: list[tuple[str, str, Optional[str]]],  # query, corpus, prompt
        *args,
        **kwargs,
    ) -> np.ndarray:
-
        _sentences = []
        for query, corpus, prompt in sentences:
            query = self.query_template.format(query=query)
@@ -127,8 +126,9 @@ class GemmaMtebEncoder(VllmMtebEncoder):

@pytest.mark.parametrize("model_info", RERANK_MODELS)
 def test_rerank_models_mteb(vllm_runner, model_info: RerankModelInfo) -> None:
-
-    mteb_test_rerank_models(GemmaRerankerHfRunner,
-                            vllm_runner,
-                            model_info,
-                            vllm_mteb_encoder=GemmaMtebEncoder)
+    mteb_test_rerank_models(
+        GemmaRerankerHfRunner,
+        vllm_runner,
+        model_info,
+        vllm_mteb_encoder=GemmaMtebEncoder,
+    )
--- a/tests/models/language/pooling_mteb_test/test_cross_encoder.py
+++ b/tests/models/language/pooling_mteb_test/test_cross_encoder.py
@@ -2,22 +2,30 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 import pytest

-from tests.models.utils import (CLSPoolingRerankModelInfo,
-                                LASTPoolingRerankModelInfo, RerankModelInfo)
+from tests.models.utils import (
+    CLSPoolingRerankModelInfo,
+    LASTPoolingRerankModelInfo,
+    RerankModelInfo,
+)

 from .mteb_utils import mteb_test_rerank_models

 RERANK_MODELS = [
-    CLSPoolingRerankModelInfo("cross-encoder/ms-marco-TinyBERT-L-2-v2",
-                              mteb_score=0.32898,
-                              architecture="BertForSequenceClassification"),
-    LASTPoolingRerankModelInfo("tomaarsen/Qwen3-Reranker-0.6B-seq-cls",
-                               mteb_score=0.25736,
-                               architecture="Qwen3ForSequenceClassification")
+    CLSPoolingRerankModelInfo(
+        "cross-encoder/ms-marco-TinyBERT-L-2-v2",
+        mteb_score=0.32898,
+        architecture="BertForSequenceClassification",
+    ),
+    LASTPoolingRerankModelInfo(
+        "tomaarsen/Qwen3-Reranker-0.6B-seq-cls",
+        mteb_score=0.25736,
+        architecture="Qwen3ForSequenceClassification",
+    ),
 ]


@pytest.mark.parametrize("model_info", RERANK_MODELS)
-def test_rerank_models_mteb(hf_runner, vllm_runner,
-                            model_info: RerankModelInfo) -> None:
+def test_rerank_models_mteb(
+    hf_runner, vllm_runner, model_info: RerankModelInfo
+) -> None:
    mteb_test_rerank_models(hf_runner, vllm_runner, model_info)
--- a/tests/models/language/pooling_mteb_test/test_gte.py
+++ b/tests/models/language/pooling_mteb_test/test_gte.py
@@ -3,74 +3,93 @@

 import pytest

-from tests.models.language.pooling.embed_utils import (
-    correctness_test_embed_models)
-from tests.models.utils import (CLSPoolingEmbedModelInfo,
-                                CLSPoolingRerankModelInfo, EmbedModelInfo,
-                                LASTPoolingEmbedModelInfo, RerankModelInfo)
+from tests.models.language.pooling.embed_utils import correctness_test_embed_models
+from tests.models.utils import (
+    CLSPoolingEmbedModelInfo,
+    CLSPoolingRerankModelInfo,
+    EmbedModelInfo,
+    LASTPoolingEmbedModelInfo,
+    RerankModelInfo,
+)

 from .mteb_utils import mteb_test_embed_models, mteb_test_rerank_models

 MODELS = [
    ########## BertModel
-    CLSPoolingEmbedModelInfo("thenlper/gte-large",
-                             mteb_score=0.76807651,
-                             architecture="BertModel",
-                             enable_test=True),
-    CLSPoolingEmbedModelInfo("thenlper/gte-base",
-                             architecture="BertModel",
-                             enable_test=False),
-    CLSPoolingEmbedModelInfo("thenlper/gte-small",
-                             architecture="BertModel",
-                             enable_test=False),
-    CLSPoolingEmbedModelInfo("thenlper/gte-large-zh",
-                             architecture="BertModel",
-                             enable_test=False),
-    CLSPoolingEmbedModelInfo("thenlper/gte-base-zh",
-                             architecture="BertModel",
-                             enable_test=False),
-    CLSPoolingEmbedModelInfo("thenlper/gte-small-zh",
-                             architecture="BertModel",
-                             enable_test=False),
+    CLSPoolingEmbedModelInfo(
+        "thenlper/gte-large",
+        mteb_score=0.76807651,
+        architecture="BertModel",
+        enable_test=True,
+    ),
+    CLSPoolingEmbedModelInfo(
+        "thenlper/gte-base", architecture="BertModel", enable_test=False
+    ),
+    CLSPoolingEmbedModelInfo(
+        "thenlper/gte-small", architecture="BertModel", enable_test=False
+    ),
+    CLSPoolingEmbedModelInfo(
+        "thenlper/gte-large-zh", architecture="BertModel", enable_test=False
+    ),
+    CLSPoolingEmbedModelInfo(
+        "thenlper/gte-base-zh", architecture="BertModel", enable_test=False
+    ),
+    CLSPoolingEmbedModelInfo(
+        "thenlper/gte-small-zh", architecture="BertModel", enable_test=False
+    ),
    ########### NewModel
    # These three architectures are almost the same, but not exactly the same.
    # For example,
    # - whether to use token_type_embeddings
    # - whether to use context expansion
    # So only test one (the most widely used) model
-    CLSPoolingEmbedModelInfo("Alibaba-NLP/gte-multilingual-base",
-                             architecture="GteNewModel",
-                             mteb_score=0.775074696,
-                             hf_overrides={"architectures": ["GteNewModel"]},
-                             enable_test=True),
-    CLSPoolingEmbedModelInfo("Alibaba-NLP/gte-base-en-v1.5",
-                             architecture="GteNewModel",
-                             hf_overrides={"architectures": ["GteNewModel"]},
-                             enable_test=False),
-    CLSPoolingEmbedModelInfo("Alibaba-NLP/gte-large-en-v1.5",
-                             architecture="GteNewModel",
-                             hf_overrides={"architectures": ["GteNewModel"]},
-                             enable_test=False),
+    CLSPoolingEmbedModelInfo(
+        "Alibaba-NLP/gte-multilingual-base",
+        architecture="GteNewModel",
+        mteb_score=0.775074696,
+        hf_overrides={"architectures": ["GteNewModel"]},
+        enable_test=True,
+    ),
+    CLSPoolingEmbedModelInfo(
+        "Alibaba-NLP/gte-base-en-v1.5",
+        architecture="GteNewModel",
+        hf_overrides={"architectures": ["GteNewModel"]},
+        enable_test=False,
+    ),
+    CLSPoolingEmbedModelInfo(
+        "Alibaba-NLP/gte-large-en-v1.5",
+        architecture="GteNewModel",
+        hf_overrides={"architectures": ["GteNewModel"]},
+        enable_test=False,
+    ),
    ########### Qwen2ForCausalLM
-    LASTPoolingEmbedModelInfo("Alibaba-NLP/gte-Qwen2-1.5B-instruct",
-                              mteb_score=0.758473459018872,
-                              architecture="Qwen2ForCausalLM",
-                              enable_test=True),
+    LASTPoolingEmbedModelInfo(
+        "Alibaba-NLP/gte-Qwen2-1.5B-instruct",
+        mteb_score=0.758473459018872,
+        architecture="Qwen2ForCausalLM",
+        enable_test=True,
+    ),
    ########## ModernBertModel
-    CLSPoolingEmbedModelInfo("Alibaba-NLP/gte-modernbert-base",
-                             mteb_score=0.748193353,
-                             architecture="ModernBertModel",
-                             enable_test=True),
+    CLSPoolingEmbedModelInfo(
+        "Alibaba-NLP/gte-modernbert-base",
+        mteb_score=0.748193353,
+        architecture="ModernBertModel",
+        enable_test=True,
+    ),
    ########## Qwen3ForCausalLM
-    LASTPoolingEmbedModelInfo("Qwen/Qwen3-Embedding-0.6B",
-                              mteb_score=0.771163695,
-                              architecture="Qwen3ForCausalLM",
-                              dtype="float32",
-                              enable_test=True),
-    LASTPoolingEmbedModelInfo("Qwen/Qwen3-Embedding-4B",
-                              architecture="Qwen3ForCausalLM",
-                              dtype="float32",
-                              enable_test=False),
+    LASTPoolingEmbedModelInfo(
+        "Qwen/Qwen3-Embedding-0.6B",
+        mteb_score=0.771163695,
+        architecture="Qwen3ForCausalLM",
+        dtype="float32",
+        enable_test=True,
+    ),
+    LASTPoolingEmbedModelInfo(
+        "Qwen/Qwen3-Embedding-4B",
+        architecture="Qwen3ForCausalLM",
+        dtype="float32",
+        enable_test=False,
+    ),
 ]

 RERANK_MODELS = [
@@ -79,31 +98,32 @@ RERANK_MODELS = [
        "Alibaba-NLP/gte-reranker-modernbert-base",
        mteb_score=0.33386,
        architecture="ModernBertForSequenceClassification",
-        enable_test=True),
+        enable_test=True,
+    ),
    CLSPoolingRerankModelInfo(
        "Alibaba-NLP/gte-multilingual-reranker-base",
        mteb_score=0.33062,
        architecture="GteNewForSequenceClassification",
        hf_overrides={"architectures": ["GteNewForSequenceClassification"]},
-        enable_test=True),
+        enable_test=True,
+    ),
 ]


@pytest.mark.parametrize("model_info", MODELS)
-def test_embed_models_mteb(hf_runner, vllm_runner,
-                           model_info: EmbedModelInfo) -> None:
+def test_embed_models_mteb(hf_runner, vllm_runner, model_info: EmbedModelInfo) -> None:
    mteb_test_embed_models(hf_runner, vllm_runner, model_info)


@pytest.mark.parametrize("model_info", MODELS)
-def test_embed_models_correctness(hf_runner, vllm_runner,
-                                  model_info: EmbedModelInfo,
-                                  example_prompts) -> None:
-    correctness_test_embed_models(hf_runner, vllm_runner, model_info,
-                                  example_prompts)
+def test_embed_models_correctness(
+    hf_runner, vllm_runner, model_info: EmbedModelInfo, example_prompts
+) -> None:
+    correctness_test_embed_models(hf_runner, vllm_runner, model_info, example_prompts)


@pytest.mark.parametrize("model_info", RERANK_MODELS)
-def test_rerank_models_mteb(hf_runner, vllm_runner,
-                            model_info: RerankModelInfo) -> None:
+def test_rerank_models_mteb(
+    hf_runner, vllm_runner, model_info: RerankModelInfo
+) -> None:
    mteb_test_rerank_models(hf_runner, vllm_runner, model_info)
--- a/tests/models/language/pooling_mteb_test/test_intfloat.py
+++ b/tests/models/language/pooling_mteb_test/test_intfloat.py
@@ -2,50 +2,55 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 import pytest

-from tests.models.language.pooling.embed_utils import (
-    correctness_test_embed_models)
+from tests.models.language.pooling.embed_utils import correctness_test_embed_models
 from tests.models.utils import CLSPoolingEmbedModelInfo, EmbedModelInfo

 from .mteb_utils import mteb_test_embed_models

 MODELS = [
    ########## BertModel
-    CLSPoolingEmbedModelInfo("intfloat/e5-small",
-                             architecture="BertModel",
-                             mteb_score=0.742285423,
-                             enable_test=True),
-    CLSPoolingEmbedModelInfo("intfloat/e5-base",
-                             architecture="BertModel",
-                             enable_test=False),
-    CLSPoolingEmbedModelInfo("intfloat/e5-large",
-                             architecture="BertModel",
-                             enable_test=False),
-    CLSPoolingEmbedModelInfo("intfloat/multilingual-e5-small",
-                             architecture="BertModel",
-                             enable_test=False),
+    CLSPoolingEmbedModelInfo(
+        "intfloat/e5-small",
+        architecture="BertModel",
+        mteb_score=0.742285423,
+        enable_test=True,
+    ),
+    CLSPoolingEmbedModelInfo(
+        "intfloat/e5-base", architecture="BertModel", enable_test=False
+    ),
+    CLSPoolingEmbedModelInfo(
+        "intfloat/e5-large", architecture="BertModel", enable_test=False
+    ),
+    CLSPoolingEmbedModelInfo(
+        "intfloat/multilingual-e5-small", architecture="BertModel", enable_test=False
+    ),
    ########## XLMRobertaModel
-    CLSPoolingEmbedModelInfo("intfloat/multilingual-e5-base",
-                             architecture="XLMRobertaModel",
-                             mteb_score=0.779325955,
-                             enable_test=True),
-    CLSPoolingEmbedModelInfo("intfloat/multilingual-e5-large",
-                             architecture="XLMRobertaModel",
-                             enable_test=False),
-    CLSPoolingEmbedModelInfo("intfloat/multilingual-e5-large-instruct",
-                             architecture="XLMRobertaModel",
-                             enable_test=False),
+    CLSPoolingEmbedModelInfo(
+        "intfloat/multilingual-e5-base",
+        architecture="XLMRobertaModel",
+        mteb_score=0.779325955,
+        enable_test=True,
+    ),
+    CLSPoolingEmbedModelInfo(
+        "intfloat/multilingual-e5-large",
+        architecture="XLMRobertaModel",
+        enable_test=False,
+    ),
+    CLSPoolingEmbedModelInfo(
+        "intfloat/multilingual-e5-large-instruct",
+        architecture="XLMRobertaModel",
+        enable_test=False,
+    ),
 ]


@pytest.mark.parametrize("model_info", MODELS)
-def test_embed_models_mteb(hf_runner, vllm_runner,
-                           model_info: EmbedModelInfo) -> None:
+def test_embed_models_mteb(hf_runner, vllm_runner, model_info: EmbedModelInfo) -> None:
    mteb_test_embed_models(hf_runner, vllm_runner, model_info)


@pytest.mark.parametrize("model_info", MODELS)
-def test_embed_models_correctness(hf_runner, vllm_runner,
-                                  model_info: EmbedModelInfo,
-                                  example_prompts) -> None:
-    correctness_test_embed_models(hf_runner, vllm_runner, model_info,
-                                  example_prompts)
+def test_embed_models_correctness(
+    hf_runner, vllm_runner, model_info: EmbedModelInfo, example_prompts
+) -> None:
+    correctness_test_embed_models(hf_runner, vllm_runner, model_info, example_prompts)
--- a/tests/models/language/pooling_mteb_test/test_jina.py
+++ b/tests/models/language/pooling_mteb_test/test_jina.py
@@ -5,60 +5,68 @@ from functools import partial
 import pytest

 from tests.models.language.pooling.embed_utils import (
-    check_embeddings_close, correctness_test_embed_models, matryoshka_fy)
-from tests.models.utils import (CLSPoolingEmbedModelInfo,
-                                CLSPoolingRerankModelInfo, EmbedModelInfo,
-                                RerankModelInfo)
+    check_embeddings_close,
+    correctness_test_embed_models,
+    matryoshka_fy,
+)
+from tests.models.utils import (
+    CLSPoolingEmbedModelInfo,
+    CLSPoolingRerankModelInfo,
+    EmbedModelInfo,
+    RerankModelInfo,
+)
 from vllm import PoolingParams

 from .mteb_utils import mteb_test_embed_models, mteb_test_rerank_models

 EMBEDDING_MODELS = [
-    CLSPoolingEmbedModelInfo("jinaai/jina-embeddings-v3",
-                             mteb_score=0.824413164,
-                             architecture="XLMRobertaModel",
-                             is_matryoshka=True)
+    CLSPoolingEmbedModelInfo(
+        "jinaai/jina-embeddings-v3",
+        mteb_score=0.824413164,
+        architecture="XLMRobertaModel",
+        is_matryoshka=True,
+    )
 ]

 RERANK_MODELS = [
    CLSPoolingRerankModelInfo(
        "jinaai/jina-reranker-v2-base-multilingual",
        mteb_score=0.33643,
-        architecture="XLMRobertaForSequenceClassification")
+        architecture="XLMRobertaForSequenceClassification",
+    )
 ]


@pytest.mark.parametrize("model_info", EMBEDDING_MODELS)
-def test_embed_models_mteb(hf_runner, vllm_runner,
-                           model_info: EmbedModelInfo) -> None:
-
+def test_embed_models_mteb(hf_runner, vllm_runner, model_info: EmbedModelInfo) -> None:
    def hf_model_callback(model):
        model.encode = partial(model.encode, task="text-matching")

-    mteb_test_embed_models(hf_runner,
-                           vllm_runner,
-                           model_info,
-                           hf_model_callback=hf_model_callback)
+    mteb_test_embed_models(
+        hf_runner, vllm_runner, model_info, hf_model_callback=hf_model_callback
+    )


@pytest.mark.parametrize("model_info", EMBEDDING_MODELS)
-def test_embed_models_correctness(hf_runner, vllm_runner,
-                                  model_info: EmbedModelInfo,
-                                  example_prompts) -> None:
-
+def test_embed_models_correctness(
+    hf_runner, vllm_runner, model_info: EmbedModelInfo, example_prompts
+) -> None:
    def hf_model_callback(model):
        model.encode = partial(model.encode, task="text-matching")

-    correctness_test_embed_models(hf_runner,
-                                  vllm_runner,
-                                  model_info,
-                                  example_prompts,
-                                  hf_model_callback=hf_model_callback)
+    correctness_test_embed_models(
+        hf_runner,
+        vllm_runner,
+        model_info,
+        example_prompts,
+        hf_model_callback=hf_model_callback,
+    )


@pytest.mark.parametrize("model_info", RERANK_MODELS)
-def test_rerank_models_mteb(hf_runner, vllm_runner,
-                            model_info: RerankModelInfo) -> None:
+def test_rerank_models_mteb(
+    hf_runner, vllm_runner, model_info: RerankModelInfo
+) -> None:
    mteb_test_rerank_models(hf_runner, vllm_runner, model_info)


@@ -81,32 +89,32 @@ def test_matryoshka(
    example_prompts = [str(s).strip() for s in example_prompts]

    with hf_runner(
-            model_info.name,
-            dtype=dtype,
-            is_sentence_transformer=True,
+        model_info.name,
+        dtype=dtype,
+        is_sentence_transformer=True,
    ) as hf_model:
        hf_outputs = hf_model.encode(example_prompts, task="text-matching")
        hf_outputs = matryoshka_fy(hf_outputs, dimensions)

-    with vllm_runner(model_info.name,
-                     runner="pooling",
-                     dtype=dtype,
-                     max_model_len=None) as vllm_model:
+    with vllm_runner(
+        model_info.name, runner="pooling", dtype=dtype, max_model_len=None
+    ) as vllm_model:
        assert vllm_model.llm.llm_engine.model_config.is_matryoshka

        matryoshka_dimensions = (
-            vllm_model.llm.llm_engine.model_config.matryoshka_dimensions)
+            vllm_model.llm.llm_engine.model_config.matryoshka_dimensions
+        )
        assert matryoshka_dimensions is not None

        if dimensions not in matryoshka_dimensions:
            with pytest.raises(ValueError):
                vllm_model.embed(
-                    example_prompts,
-                    pooling_params=PoolingParams(dimensions=dimensions))
+                    example_prompts, pooling_params=PoolingParams(dimensions=dimensions)
+                )
        else:
            vllm_outputs = vllm_model.embed(
-                example_prompts,
-                pooling_params=PoolingParams(dimensions=dimensions))
+                example_prompts, pooling_params=PoolingParams(dimensions=dimensions)
+            )

            check_embeddings_close(
                embeddings_0_lst=hf_outputs,
--- a/tests/models/language/pooling_mteb_test/test_mxbai_rerank.py
+++ b/tests/models/language/pooling_mteb_test/test_mxbai_rerank.py
@@ -17,46 +17,45 @@ mxbai_rerank_hf_overrides = {
 }

 RERANK_MODELS = [
-    LASTPoolingRerankModelInfo("mixedbread-ai/mxbai-rerank-base-v2",
-                               architecture="Qwen2ForSequenceClassification",
-                               hf_overrides=mxbai_rerank_hf_overrides,
-                               mteb_score=0.273,
-                               enable_test=True),
-    LASTPoolingRerankModelInfo("mixedbread-ai/mxbai-rerank-large-v2",
-                               architecture="Qwen2ForSequenceClassification",
-                               hf_overrides=mxbai_rerank_hf_overrides,
-                               enable_test=False)
+    LASTPoolingRerankModelInfo(
+        "mixedbread-ai/mxbai-rerank-base-v2",
+        architecture="Qwen2ForSequenceClassification",
+        hf_overrides=mxbai_rerank_hf_overrides,
+        mteb_score=0.273,
+        enable_test=True,
+    ),
+    LASTPoolingRerankModelInfo(
+        "mixedbread-ai/mxbai-rerank-large-v2",
+        architecture="Qwen2ForSequenceClassification",
+        hf_overrides=mxbai_rerank_hf_overrides,
+        enable_test=False,
+    ),
 ]


 class MxbaiRerankerHfRunner(HfRunner):
-
-    def __init__(self,
-                 model_name: str,
-                 dtype: str = "auto",
-                 *args: Any,
-                 **kwargs: Any) -> None:
+    def __init__(
+        self, model_name: str, dtype: str = "auto", *args: Any, **kwargs: Any
+    ) -> None:
        from transformers import AutoModelForCausalLM, AutoTokenizer
+
        super().__init__(model_name, dtype, auto_cls=AutoModelForCausalLM)

-        self.tokenizer = AutoTokenizer.from_pretrained(model_name,
-                                                       padding_side='left')
+        self.tokenizer = AutoTokenizer.from_pretrained(model_name, padding_side="left")
        self.yes_loc = self.tokenizer.convert_tokens_to_ids("1")
        self.no_loc = self.tokenizer.convert_tokens_to_ids("0")

-    def predict(self, prompts: list[list[str]], *args,
-                **kwargs) -> torch.Tensor:
-
+    def predict(self, prompts: list[list[str]], *args, **kwargs) -> torch.Tensor:
        def process_inputs(pairs):
-            inputs = self.tokenizer(pairs,
-                                    padding=False,
-                                    truncation='longest_first',
-                                    return_attention_mask=False)
-            for i, ele in enumerate(inputs['input_ids']):
-                inputs['input_ids'][i] = ele
-            inputs = self.tokenizer.pad(inputs,
-                                        padding=True,
-                                        return_tensors="pt")
+            inputs = self.tokenizer(
+                pairs,
+                padding=False,
+                truncation="longest_first",
+                return_attention_mask=False,
+            )
+            for i, ele in enumerate(inputs["input_ids"]):
+                inputs["input_ids"][i] = ele
+            inputs = self.tokenizer.pad(inputs, padding=True, return_tensors="pt")
            for key in inputs:
                inputs[key] = inputs[key].to(self.model.device)
            return inputs
--- a/tests/models/language/pooling_mteb_test/test_nomic.py
+++ b/tests/models/language/pooling_mteb_test/test_nomic.py
@@ -3,39 +3,42 @@

 import pytest

-from tests.models.language.pooling.embed_utils import (
-    correctness_test_embed_models)
+from tests.models.language.pooling.embed_utils import correctness_test_embed_models
 from tests.models.utils import CLSPoolingEmbedModelInfo, EmbedModelInfo

 from .mteb_utils import mteb_test_embed_models

 MODELS = [
-    CLSPoolingEmbedModelInfo("nomic-ai/nomic-embed-text-v1",
-                             architecture="NomicBertModel",
-                             mteb_score=0.737568559,
-                             enable_test=True),
-    CLSPoolingEmbedModelInfo("nomic-ai/nomic-embed-text-v1.5",
-                             architecture="NomicBertModel",
-                             enable_test=False),
-    CLSPoolingEmbedModelInfo("nomic-ai/CodeRankEmbed",
-                             architecture="NomicBertModel",
-                             enable_test=False),
-    CLSPoolingEmbedModelInfo("nomic-ai/nomic-embed-text-v2-moe",
-                             architecture="NomicBertModel",
-                             mteb_score=0.715488912,
-                             enable_test=True)
+    CLSPoolingEmbedModelInfo(
+        "nomic-ai/nomic-embed-text-v1",
+        architecture="NomicBertModel",
+        mteb_score=0.737568559,
+        enable_test=True,
+    ),
+    CLSPoolingEmbedModelInfo(
+        "nomic-ai/nomic-embed-text-v1.5",
+        architecture="NomicBertModel",
+        enable_test=False,
+    ),
+    CLSPoolingEmbedModelInfo(
+        "nomic-ai/CodeRankEmbed", architecture="NomicBertModel", enable_test=False
+    ),
+    CLSPoolingEmbedModelInfo(
+        "nomic-ai/nomic-embed-text-v2-moe",
+        architecture="NomicBertModel",
+        mteb_score=0.715488912,
+        enable_test=True,
+    ),
 ]


@pytest.mark.parametrize("model_info", MODELS)
-def test_embed_models_mteb(hf_runner, vllm_runner,
-                           model_info: EmbedModelInfo) -> None:
+def test_embed_models_mteb(hf_runner, vllm_runner, model_info: EmbedModelInfo) -> None:
    mteb_test_embed_models(hf_runner, vllm_runner, model_info)


@pytest.mark.parametrize("model_info", MODELS)
-def test_embed_models_correctness(hf_runner, vllm_runner,
-                                  model_info: EmbedModelInfo,
-                                  example_prompts) -> None:
-    correctness_test_embed_models(hf_runner, vllm_runner, model_info,
-                                  example_prompts)
+def test_embed_models_correctness(
+    hf_runner, vllm_runner, model_info: EmbedModelInfo, example_prompts
+) -> None:
+    correctness_test_embed_models(hf_runner, vllm_runner, model_info, example_prompts)
--- a/tests/models/language/pooling_mteb_test/test_qwen3_reranker.py
+++ b/tests/models/language/pooling_mteb_test/test_qwen3_reranker.py
@@ -18,46 +18,45 @@ qwen3_reranker_hf_overrides = {
 }

 RERANK_MODELS = [
-    LASTPoolingRerankModelInfo("Qwen/Qwen3-Reranker-0.6B",
-                               architecture="Qwen3ForSequenceClassification",
-                               mteb_score=0.25736,
-                               hf_overrides=qwen3_reranker_hf_overrides,
-                               enable_test=True),
-    LASTPoolingRerankModelInfo("Qwen/Qwen3-Reranker-4B",
-                               architecture="Qwen3ForSequenceClassification",
-                               hf_overrides=qwen3_reranker_hf_overrides,
-                               enable_test=False)
+    LASTPoolingRerankModelInfo(
+        "Qwen/Qwen3-Reranker-0.6B",
+        architecture="Qwen3ForSequenceClassification",
+        mteb_score=0.25736,
+        hf_overrides=qwen3_reranker_hf_overrides,
+        enable_test=True,
+    ),
+    LASTPoolingRerankModelInfo(
+        "Qwen/Qwen3-Reranker-4B",
+        architecture="Qwen3ForSequenceClassification",
+        hf_overrides=qwen3_reranker_hf_overrides,
+        enable_test=False,
+    ),
 ]


 class Qwen3RerankerHfRunner(HfRunner):
-
-    def __init__(self,
-                 model_name: str,
-                 dtype: str = "auto",
-                 *args: Any,
-                 **kwargs: Any) -> None:
+    def __init__(
+        self, model_name: str, dtype: str = "auto", *args: Any, **kwargs: Any
+    ) -> None:
        from transformers import AutoModelForCausalLM, AutoTokenizer
+
        super().__init__(model_name, dtype, auto_cls=AutoModelForCausalLM)

-        self.tokenizer = AutoTokenizer.from_pretrained(model_name,
-                                                       padding_side='left')
+        self.tokenizer = AutoTokenizer.from_pretrained(model_name, padding_side="left")
        self.token_false_id = self.tokenizer.convert_tokens_to_ids("no")
        self.token_true_id = self.tokenizer.convert_tokens_to_ids("yes")

-    def predict(self, prompts: list[list[str]], *args,
-                **kwargs) -> torch.Tensor:
-
+    def predict(self, prompts: list[list[str]], *args, **kwargs) -> torch.Tensor:
        def process_inputs(pairs):
-            inputs = self.tokenizer(pairs,
-                                    padding=False,
-                                    truncation='longest_first',
-                                    return_attention_mask=False)
-            for i, ele in enumerate(inputs['input_ids']):
-                inputs['input_ids'][i] = ele
-            inputs = self.tokenizer.pad(inputs,
-                                        padding=True,
-                                        return_tensors="pt")
+            inputs = self.tokenizer(
+                pairs,
+                padding=False,
+                truncation="longest_first",
+                return_attention_mask=False,
+            )
+            for i, ele in enumerate(inputs["input_ids"]):
+                inputs["input_ids"][i] = ele
+            inputs = self.tokenizer.pad(inputs, padding=True, return_tensors="pt")
            for key in inputs:
                inputs[key] = inputs[key].to(self.model.device)
            return inputs
@@ -82,20 +81,18 @@ class Qwen3RerankerHfRunner(HfRunner):

@pytest.mark.parametrize("model_info", RERANK_MODELS)
 def test_rerank_models_mteb(vllm_runner, model_info: RerankModelInfo) -> None:
-
    mteb_test_rerank_models(Qwen3RerankerHfRunner, vllm_runner, model_info)


@pytest.mark.parametrize("model_info", RERANK_MODELS)
@multi_gpu_test(num_gpus=2)
-def test_rerank_models_mteb_tp(vllm_runner,
-                               model_info: RerankModelInfo) -> None:
-
+def test_rerank_models_mteb_tp(vllm_runner, model_info: RerankModelInfo) -> None:
    assert model_info.architecture == "Qwen3ForSequenceClassification"

    vllm_extra_kwargs: dict[str, Any] = {
        "tensor_parallel_size": 2,
    }

-    mteb_test_rerank_models(Qwen3RerankerHfRunner, vllm_runner, model_info,
-                            vllm_extra_kwargs)
+    mteb_test_rerank_models(
+        Qwen3RerankerHfRunner, vllm_runner, model_info, vllm_extra_kwargs
+    )
--- a/tests/models/language/pooling_mteb_test/test_snowflake_arctic_embed.py
+++ b/tests/models/language/pooling_mteb_test/test_snowflake_arctic_embed.py
@@ -3,62 +3,75 @@

 import pytest

-from tests.models.language.pooling.embed_utils import (
-    correctness_test_embed_models)
+from tests.models.language.pooling.embed_utils import correctness_test_embed_models
 from tests.models.utils import CLSPoolingEmbedModelInfo, EmbedModelInfo

 from .mteb_utils import mteb_test_embed_models

 MODELS = [
-    CLSPoolingEmbedModelInfo("Snowflake/snowflake-arctic-embed-xs",
-                             is_matryoshka=False,
-                             architecture="BertModel",
-                             mteb_score=0.714927797,
-                             enable_test=True),
-    CLSPoolingEmbedModelInfo("Snowflake/snowflake-arctic-embed-s",
-                             is_matryoshka=False,
-                             architecture="BertModel",
-                             enable_test=False),
-    CLSPoolingEmbedModelInfo("Snowflake/snowflake-arctic-embed-m",
-                             is_matryoshka=False,
-                             architecture="BertModel",
-                             enable_test=False),
-    CLSPoolingEmbedModelInfo("Snowflake/snowflake-arctic-embed-m-long",
-                             is_matryoshka=False,
-                             architecture="NomicBertModel",
-                             mteb_score=0.681146831,
-                             enable_test=True),
-    CLSPoolingEmbedModelInfo("Snowflake/snowflake-arctic-embed-l",
-                             is_matryoshka=False,
-                             architecture="BertModel",
-                             enable_test=False),
-    CLSPoolingEmbedModelInfo("Snowflake/snowflake-arctic-embed-m-v1.5",
-                             is_matryoshka=True,
-                             architecture="BertModel",
-                             mteb_score=0.649088363,
-                             enable_test=True),
-    CLSPoolingEmbedModelInfo("Snowflake/snowflake-arctic-embed-l-v2.0",
-                             is_matryoshka=True,
-                             architecture="XLMRobertaModel",
-                             mteb_score=0.712258299,
-                             enable_test=True),
-    CLSPoolingEmbedModelInfo("Snowflake/snowflake-arctic-embed-m-v2.0",
-                             is_matryoshka=True,
-                             architecture="GteModel",
-                             mteb_score=0.706622444,
-                             enable_test=True),
+    CLSPoolingEmbedModelInfo(
+        "Snowflake/snowflake-arctic-embed-xs",
+        is_matryoshka=False,
+        architecture="BertModel",
+        mteb_score=0.714927797,
+        enable_test=True,
+    ),
+    CLSPoolingEmbedModelInfo(
+        "Snowflake/snowflake-arctic-embed-s",
+        is_matryoshka=False,
+        architecture="BertModel",
+        enable_test=False,
+    ),
+    CLSPoolingEmbedModelInfo(
+        "Snowflake/snowflake-arctic-embed-m",
+        is_matryoshka=False,
+        architecture="BertModel",
+        enable_test=False,
+    ),
+    CLSPoolingEmbedModelInfo(
+        "Snowflake/snowflake-arctic-embed-m-long",
+        is_matryoshka=False,
+        architecture="NomicBertModel",
+        mteb_score=0.681146831,
+        enable_test=True,
+    ),
+    CLSPoolingEmbedModelInfo(
+        "Snowflake/snowflake-arctic-embed-l",
+        is_matryoshka=False,
+        architecture="BertModel",
+        enable_test=False,
+    ),
+    CLSPoolingEmbedModelInfo(
+        "Snowflake/snowflake-arctic-embed-m-v1.5",
+        is_matryoshka=True,
+        architecture="BertModel",
+        mteb_score=0.649088363,
+        enable_test=True,
+    ),
+    CLSPoolingEmbedModelInfo(
+        "Snowflake/snowflake-arctic-embed-l-v2.0",
+        is_matryoshka=True,
+        architecture="XLMRobertaModel",
+        mteb_score=0.712258299,
+        enable_test=True,
+    ),
+    CLSPoolingEmbedModelInfo(
+        "Snowflake/snowflake-arctic-embed-m-v2.0",
+        is_matryoshka=True,
+        architecture="GteModel",
+        mteb_score=0.706622444,
+        enable_test=True,
+    ),
 ]


@pytest.mark.parametrize("model_info", MODELS)
-def test_embed_models_mteb(hf_runner, vllm_runner,
-                           model_info: EmbedModelInfo) -> None:
+def test_embed_models_mteb(hf_runner, vllm_runner, model_info: EmbedModelInfo) -> None:
    mteb_test_embed_models(hf_runner, vllm_runner, model_info)


@pytest.mark.parametrize("model_info", MODELS)
-def test_embed_models_correctness(hf_runner, vllm_runner,
-                                  model_info: EmbedModelInfo,
-                                  example_prompts) -> None:
-    correctness_test_embed_models(hf_runner, vllm_runner, model_info,
-                                  example_prompts)
+def test_embed_models_correctness(
+    hf_runner, vllm_runner, model_info: EmbedModelInfo, example_prompts
+) -> None:
+    correctness_test_embed_models(hf_runner, vllm_runner, model_info, example_prompts)
--- a/tests/models/language/pooling_mteb_test/test_st_projector.py
+++ b/tests/models/language/pooling_mteb_test/test_st_projector.py
@@ -2,8 +2,11 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 import pytest

-from tests.models.utils import (CLSPoolingEmbedModelInfo, EmbedModelInfo,
-                                LASTPoolingEmbedModelInfo)
+from tests.models.utils import (
+    CLSPoolingEmbedModelInfo,
+    EmbedModelInfo,
+    LASTPoolingEmbedModelInfo,
+)

 from .mteb_utils import mteb_test_embed_models

@@ -15,15 +18,15 @@ ST_PROJECTOR_MODELS = [
        mteb_score=0.688611955,
        enable_test=True,
    ),
-    LASTPoolingEmbedModelInfo("google/embeddinggemma-300m",
-                              architecture="Gemma3TextModel",
-                              mteb_score=0.7473819294684156,
-                              enable_test=True)
+    LASTPoolingEmbedModelInfo(
+        "google/embeddinggemma-300m",
+        architecture="Gemma3TextModel",
+        mteb_score=0.7473819294684156,
+        enable_test=True,
+    ),
 ]


@pytest.mark.parametrize("model_info", ST_PROJECTOR_MODELS)
-def test_embed_models_mteb(hf_runner, vllm_runner,
-                           model_info: EmbedModelInfo) -> None:
-
+def test_embed_models_mteb(hf_runner, vllm_runner, model_info: EmbedModelInfo) -> None:
    mteb_test_embed_models(hf_runner, vllm_runner, model_info)