Zahra Dehghanighobadi, Asja Fischer

DepthKV: Layer-Dependent KV Cache Pruning for Long-Context LLM Inference

Zahra Dehghanighobadi, Asja Fischer / April 28, 2026

arXiv:2604.24647v1 Announce Type: new
Abstract: Long-context reasoning is a critical capability of large language models (LLMs), enabling applications such as long-document understanding, summarization, and code generation. However, efficient autoregr…

Author name: Zahra Dehghanighobadi, Asja Fischer

DepthKV: Layer-Dependent KV Cache Pruning for Long-Context LLM Inference