Yasuto Hoshi, Daisuke Miyashita, Jun Deguchi

Top-K Retrieval with Fixed-Size Linear-Attention Completion: Backbone- and KV-Format-Preserving Attention for KV-Cache Read Reduction

Yasuto Hoshi, Daisuke Miyashita, Jun Deguchi / April 8, 2026

arXiv:2604.05438v1 Announce Type: cross
Abstract: Long-context generation is increasingly limited by decode-time key-value (KV) cache traffic, particularly when KV is offloaded beyond GPU memory. Query-aware retrieval (e.g., Top-K selection) reduces t…

Author name: Yasuto Hoshi, Daisuke Miyashita, Jun Deguchi

Top-K Retrieval with Fixed-Size Linear-Attention Completion: Backbone- and KV-Format-Preserving Attention for KV-Cache Read Reduction