[Misc] Add uninitialized params tracking for AutoWeightsLoader (#10327)

Signed-off-by: Isotr0py <2037008807@qq.com>
2024-11-18 09:07:46 +08:00
parent d1557e66d3
commit c4e464333e
74 changed files with 454 additions and 185 deletions
--- a/vllm/model_executor/models/idefics2_vision_model.py
+++ b/vllm/model_executor/models/idefics2_vision_model.py
@@ -15,7 +15,7 @@
 # limitations under the License.
 """PyTorch Idefics2 model."""

-from typing import Iterable, Optional, Tuple
+from typing import Iterable, Optional, Set, Tuple

 import torch
 from torch import nn
@@ -331,7 +331,8 @@ class Idefics2VisionTransformer(nn.Module):
        last_hidden_state = self.post_layernorm(encoder_outputs)
        return last_hidden_state

-    def load_weights(self, weights: Iterable[Tuple[str, torch.Tensor]]):
+    def load_weights(self, weights: Iterable[Tuple[str,
+                                                   torch.Tensor]]) -> Set[str]:
        stacked_params_mapping = [
            # (param_name, shard_name, shard_id)
            ("qkv_proj", "q_proj", "q"),
@@ -339,11 +340,13 @@ class Idefics2VisionTransformer(nn.Module):
            ("qkv_proj", "v_proj", "v"),
        ]
        params_dict = dict(self.named_parameters())
+        loaded_params: Set[str] = set()
        for name, loaded_weight in weights:
            for param_name, weight_name, shard_id in stacked_params_mapping:
                if weight_name not in name:
                    continue
-                param = params_dict[name.replace(weight_name, param_name)]
+                name = name.replace(weight_name, param_name)
+                param = params_dict[name]
                weight_loader = param.weight_loader
                weight_loader(param, loaded_weight, shard_id)
                break
@@ -352,3 +355,5 @@ class Idefics2VisionTransformer(nn.Module):
                weight_loader = getattr(param, "weight_loader",
                                        default_weight_loader)
                weight_loader(param, loaded_weight)
+            loaded_params.add(name)
+        return loaded_params