[Doc] Explicitly state that PP isn't compatible with speculative decoding yet (#10975)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
2024-12-08 01:20:49 +08:00
parent 39e227c7ae
commit c889d5888b
8 changed files with 32 additions and 9 deletions
--- a/vllm/model_executor/models/granite.py
+++ b/vllm/model_executor/models/granite.py
@@ -400,16 +400,17 @@ class GraniteForCausalLM(nn.Module, SupportsLoRA, SupportsPP):
                self.lm_head.weight = self.model.embed_tokens.weight

            logit_scale = getattr(config, "logit_scale", 1.0)
-
            if hasattr(config, "logits_scaling"):
                logit_scale /= config.logits_scaling
+
            self.logits_processor = LogitsProcessor(self.unpadded_vocab_size,
                                                    config.vocab_size,
                                                    scale=logit_scale)
-            self.sampler = get_sampler()
        else:
            self.lm_head = PPMissingLayer()

+        self.sampler = get_sampler()
+
    def get_input_embeddings(self, input_ids: torch.Tensor) -> torch.Tensor:
        return self.model.get_input_embeddings(input_ids)