Shizhan Gong, Minda Hu, Qiyuan Zhang, Chen Ma, Qi Dou

Saliency-R1: Enforcing Interpretable and Faithful Vision-language Reasoning via Saliency-map Alignment Reward

Shizhan Gong, Minda Hu, Qiyuan Zhang, Chen Ma, Qi Dou / April 7, 2026

arXiv:2604.04500v1 Announce Type: new
Abstract: Vision-language models (VLMs) have achieved remarkable success across diverse tasks. However, concerns about their trustworthiness persist, particularly regarding tendencies to lean more on textual cues …

Author name: Shizhan Gong, Minda Hu, Qiyuan Zhang, Chen Ma, Qi Dou

Saliency-R1: Enforcing Interpretable and Faithful Vision-language Reasoning via Saliency-map Alignment Reward