Yuheng Shi, Xiaohuan Pei, Linfeng Wen, Minjing Dong, Chang Xu

Q-Zoom: Query-Aware Adaptive Perception for Efficient Multimodal Large Language Models

Yuheng Shi, Xiaohuan Pei, Linfeng Wen, Minjing Dong, Chang Xu / April 9, 2026

arXiv:2604.06912v1 Announce Type: cross
Abstract: MLLMs require high-resolution visual inputs for fine-grained tasks like document understanding and dense scene perception. However, current global resolution scaling paradigms indiscriminately flood th…

Author name: Yuheng Shi, Xiaohuan Pei, Linfeng Wen, Minjing Dong, Chang Xu

Q-Zoom: Query-Aware Adaptive Perception for Efficient Multimodal Large Language Models