deepseek-v4-quant

Files

biondizzle 6fd03a0aa0 vLLM serving: patched deepseek_v4.py, disabled mega_moe, updated docs

- Add patches/deepseek_v4.py: patched vllm source file with modelopt NVFP4
  weight name mappings (expert gate_proj→w1, mlp→ffn, self_attn→attn.mla_attn,
  compressor.kv_proj→wkv, etc.), E2M1 FP4→BF16 unpacking for stacked params,
  skip patterns for NVFP4 scale tensors on MergedColumnParallelLinear, and
  resilient loading for unknown params.

- Update docker-compose.yml: copy patched deepseek_v4.py over original at
  container startup, remove --moe-backend=deep_gemm_mega_moe (no NVFP4 kernel).

- Update patches/patch_vllm_weights.py: legacy runtime monkey-patch approach
  (doesn't work with worker processes), kept for reference.

- Update README.md: added vLLM serving run history table (S1-S10), documented
  all open issues (MergedColumnParallelLinear+NVFP4, no mega_moe kernel,
  resilient loading), added vLLM-specific bug list and key notes.

- Update scripts/serve_vllm.py: add WARN comment on mega_moe flag.

2026-05-10 16:14:17 +00:00

dequant_fp8_to_bf16.py

Add resume capability to dequant script (skip already-done shards)

2026-05-08 02:58:24 +00:00

quantize_nvfp4.py

8 patches covering full export chain — no more whack-a-mole

2026-05-09 22:50:58 +00:00

serve_vllm.py

vLLM serving: patched deepseek_v4.py, disabled mega_moe, updated docs

2026-05-10 16:14:17 +00:00