Junhui He, Zhihui Fu, Jun Wang, Qingan Li

POP: Prefill-Only Pruning for Efficient Large Model Inference

Junhui He, Zhihui Fu, Jun Wang, Qingan Li / April 17, 2026

arXiv:2602.03295v2 Announce Type: replace-cross
Abstract: Large Language Models (LLMs) and Vision-Language Models (VLMs) have demonstrated remarkable capabilities. However, their deployment is hindered by significant computational costs. Existing stru…

Author name: Junhui He, Zhihui Fu, Jun Wang, Qingan Li

POP: Prefill-Only Pruning for Efficient Large Model Inference