Xinqing Li, Xin He, Xindong Zhang, Ming-Ming Cheng, Lei Zhang, Yun Liu

Towards Joint Quantization and Token Pruning of Vision-Language Models

Xinqing Li, Xin He, Xindong Zhang, Ming-Ming Cheng, Lei Zhang, Yun Liu / April 21, 2026

arXiv:2604.17320v1 Announce Type: new
Abstract: Deploying Vision-Language Models (VLMs) under aggressive low-bit inference remains challenging because inference cost is dominated by the long visual-token prefix during prefill and the growing KV cache …

Author name: Xinqing Li, Xin He, Xindong Zhang, Ming-Ming Cheng, Lei Zhang, Yun Liu

Towards Joint Quantization and Token Pruning of Vision-Language Models