[arXiv]score: 0.16

KL Divergence Fails as Quantization Proxy in Near-Baseline Regime

June 19, 2026

KLD correlates with benchmark scores across full quantization cohorts (ρ=-0.72 on Qwen3-35B-A3B, ρ=-0.86 on Devstral-Small-2-24B), but this relationship collapses to near-zero significance in the near-baseline silent zone across all 14 measurement variants tested. Per-prompt failure prediction on code tasks is weak, with failed/passed KLD ratios only 1.08–1.22x. Teams using KLD as a cheap quality gate for quantized model selection should not rely on it when comparing high-fidelity quants.

HOW THIS AFFECTS YOU

●

builderYou cannot reliably use KLD or perplexity as a cheap proxy to pick between near-baseline quantizations — run actual downstream benchmarks instead.

●

researcherWorth watching because it systematically invalidates a common evaluation shortcut across 69 quant configurations and 14 metric variants.

read original ↗arxiv.org

← back to feed