Jevin Jiang, Ying Chen, Blake A. Hechtman, Fenghui Zhang, Yarong Mu

Ragged Paged Attention: A High-Performance and Flexible LLM Inference Kernel for TPU

Jevin Jiang, Ying Chen, Blake A. Hechtman, Fenghui Zhang, Yarong Mu / April 20, 2026

arXiv:2604.15464v1 Announce Type: cross
Abstract: Large Language Model (LLM) deployment is increasingly shifting to cost-efficient accelerators like Google’s Tensor Processing Units (TPUs), prioritizing both performance and total cost of ownership (TC…

Author name: Jevin Jiang, Ying Chen, Blake A. Hechtman, Fenghui Zhang, Yarong Mu

Ragged Paged Attention: A High-Performance and Flexible LLM Inference Kernel for TPU