[Misc] Enhance attention selector (#4751)

2024-05-13 10:47:25 -07:00
parent e7c46b9527
commit 0fca3cdcf2
49 changed files with 573 additions and 220 deletions
--- a/vllm/model_executor/models/dbrx.py
+++ b/vllm/model_executor/models/dbrx.py
@@ -5,6 +5,7 @@ import torch
 import torch.nn as nn

 from vllm.attention import Attention, AttentionMetadata
+from vllm.config import CacheConfig
 from vllm.distributed import (get_tensor_model_parallel_rank,
                              get_tensor_model_parallel_world_size,
                              tensor_model_parallel_all_reduce)
@@ -166,6 +167,7 @@ class DbrxAttention(nn.Module):
    def __init__(
        self,
        config: DbrxConfig,
+        cache_config: Optional[CacheConfig] = None,
        quant_config: Optional[QuantizationConfig] = None,
    ):
        super().__init__()
@@ -221,6 +223,7 @@ class DbrxAttention(nn.Module):
            self.head_dim,
            self.scaling,
            num_kv_heads=self.num_kv_heads,
+            cache_config=cache_config,
        )

    def forward(
@@ -279,10 +282,12 @@ class DbrxBlock(nn.Module):
    def __init__(
        self,
        config: DbrxConfig,
+        cache_config: Optional[CacheConfig] = None,
        quant_config: Optional[QuantizationConfig] = None,
    ):
        super().__init__()
-        self.norm_attn_norm = DbrxFusedNormAttention(config, quant_config)
+        self.norm_attn_norm = DbrxFusedNormAttention(config, cache_config,
+                                                     quant_config)
        self.ffn = DbrxExperts(config, quant_config)

    def forward(
@@ -308,6 +313,7 @@ class DbrxModel(nn.Module):
    def __init__(
        self,
        config: DbrxConfig,
+        cache_config: Optional[CacheConfig] = None,
        quant_config: Optional[QuantizationConfig] = None,
    ):
        super().__init__()
@@ -315,8 +321,10 @@ class DbrxModel(nn.Module):
            config.vocab_size,
            config.d_model,
        )
-        self.blocks = nn.ModuleList(
-            [DbrxBlock(config, quant_config) for _ in range(config.n_layers)])
+        self.blocks = nn.ModuleList([
+            DbrxBlock(config, cache_config, quant_config)
+            for _ in range(config.n_layers)
+        ])
        self.norm_f = nn.LayerNorm(config.d_model, eps=1e-5)
        for module in self.modules():
            if hasattr(module, "bias") and isinstance(module.bias,
@@ -349,13 +357,14 @@ class DbrxForCausalLM(nn.Module):
    def __init__(
        self,
        config: DbrxConfig,
+        cache_config: Optional[CacheConfig] = None,
        quant_config: Optional[QuantizationConfig] = None,
    ):
        super().__init__()
        self.config = config
        self.quant_config = quant_config
        self.unpadded_vocab_size = config.vocab_size
-        self.transformer = DbrxModel(config, quant_config)
+        self.transformer = DbrxModel(config, cache_config, quant_config)
        self.lm_head = ParallelLMHead(
            config.vocab_size,
            config.d_model,