/u/Many_Perception_1703

Experiment: Entropy + OLS + SVD for KV cache compression

/u/Many_Perception_1703 / April 19, 2026

I’ve been exploring KV cache optimization beyond Top-K pruning. Observation: pruning fails *selectively* – a few tokens cause large error spikes. So I tried: – entropy (selection) – OLS (reconstruction) – SVD (compression) Early results: – ~3× lower er…

Author name: /u/Many_Perception_1703

Experiment: Entropy + OLS + SVD for KV cache compression