Anastasiia Filippova, David Grangier, Marco Cuturi, Jo\~ao Monteiro

Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

Anastasiia Filippova, David Grangier, Marco Cuturi, Jo\~ao Monteiro / April 28, 2026

arXiv:2604.22782v1 Announce Type: cross
Abstract: Serving transformer language models with high throughput requires caching Key-Values (KVs) to avoid redundant computation during autoregressive generation. The memory footprint of KV caching is signifi…

Author name: Anastasiia Filippova, David Grangier, Marco Cuturi, Jo\~ao Monteiro

Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing