[VLM] Remove image_input_type from VLM config (#5852)

Signed-off-by: Xiaowei Jiang <xwjiang2010@gmail.com> Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com> Co-authored-by: Roger Wang <ywang@roblox.com>
2024-07-02 00:57:09 -07:00
parent 2c37540aa6
commit 98d6682cd1
35 changed files with 329 additions and 751 deletions
--- a/examples/phi3v_example.py
+++ b/examples/phi3v_example.py
@@ -4,7 +4,6 @@ import subprocess
 from PIL import Image

 from vllm import LLM, SamplingParams
-from vllm.multimodal.image import ImagePixelData


 def run_phi3v():
@@ -17,7 +16,6 @@ def run_phi3v():
    llm = LLM(
        model=model_path,
        trust_remote_code=True,
-        image_input_type="pixel_values",
        image_token_id=32044,
        image_input_shape="1,3,1008,1344",
        image_feature_size=1921,
@@ -35,7 +33,9 @@ def run_phi3v():
    outputs = llm.generate(
        {
            "prompt": prompt,
-            "multi_modal_data": ImagePixelData(image),
+            "multi_modal_data": {
+                "image": image
+            },
        },
        sampling_params=sampling_params)
    for o in outputs: