Sanjeev Rao Ganjihal

Predictive Multi-Tier Memory Management for KV Cache in Large-Scale GPU Inference

Sanjeev Rao Ganjihal / May 1, 2026

arXiv:2604.26968v1 Announce Type: cross
Abstract: Key-value (KV) cache memory management is the primary bottleneck limiting throughput and cost-efficiency in large-scale GPU inference serving. Current systems suffer from three compounding inefficienci…

Author name: Sanjeev Rao Ganjihal

Predictive Multi-Tier Memory Management for KV Cache in Large-Scale GPU Inference