deepseek-v4-quant/patches at modelopt-nvfp4 - deepseek-v4-quant - Gitea: Git with a cup of tea

biondizzle/deepseek-v4-quant

Files

History

biondizzle 0c77a88757 sync: latest Dockerfile + nvfp4_linear.py patch from B200

2026-05-14 16:47:27 +00:00

..

deepseek_v4_attention.py

sync B200 deployment files: Dockerfile, docker-compose, patches

2026-05-14 14:13:18 +00:00

deepseek_v4.py

sync B200 deployment files: Dockerfile, docker-compose, patches

2026-05-14 14:13:18 +00:00

deepseek_v4.py.bak

S11: Fixed substr mapping, stacking, suffix, and o_a_proj - loads weights but attention forward uses FP8 einsum incompatible with NVFP4

2026-05-10 17:45:53 +00:00

deepseek_v4.py.s11

S11: Fixed substr mapping, stacking, suffix, and o_a_proj - loads weights but attention forward uses FP8 einsum incompatible with NVFP4

2026-05-10 17:45:53 +00:00

nvfp4_linear.py

sync: latest Dockerfile + nvfp4_linear.py patch from B200

2026-05-14 16:47:27 +00:00

patch_finegrained_fp8_blackwell.py

Add BF16 upcast script and Blackwell DeepGEMM patch

2026-05-07 14:25:30 +00:00

patch_vllm_weights.py

vLLM serving: patched deepseek_v4.py, disabled mega_moe, updated docs

2026-05-10 16:14:17 +00:00

quant_module_patched.py

…

staging_kernel.py

sync B200 deployment files: Dockerfile, docker-compose, patches

2026-05-14 14:13:18 +00:00