Beomsik Cho, Jaehyung Kim

Revisit What You See: Revealing Visual Semantics in Vision Tokens to Guide LVLM Decoding

Beomsik Cho, Jaehyung Kim / May 14, 2026

arXiv:2506.09522v3 Announce Type: replace-cross
Abstract: Large Vision Language Models (LVLMs) achieve strong performance across multimodal tasks by integrating visual perception with language understanding. However, how vision information contributes…

Author name: Beomsik Cho, Jaehyung Kim

Revisit What You See: Revealing Visual Semantics in Vision Tokens to Guide LVLM Decoding