Qihang Fan, Huaibo Huang, Zhiying Wu, Bingning Wang, Ran He

UniPrefill: Universal Long-Context Prefill Acceleration via Block-wise Dynamic Sparsification

Qihang Fan, Huaibo Huang, Zhiying Wu, Bingning Wang, Ran He / May 8, 2026

arXiv:2605.06221v1 Announce Type: new
Abstract: As large language models (LLMs) continue to advance rapidly, they are becoming increasingly capable while simultaneously demanding ever-longer context lengths. To improve the inference efficiency of long…

Author name: Qihang Fan, Huaibo Huang, Zhiying Wu, Bingning Wang, Ran He

UniPrefill: Universal Long-Context Prefill Acceleration via Block-wise Dynamic Sparsification