Mengzhao Jia, Zhihan Zhang, Meng Jiang

Prioritizing the Best: Incentivizing Reliable Multimodal Reasoning by Rewarding Beyond Answer Correctness

Mengzhao Jia, Zhihan Zhang, Meng Jiang / April 22, 2026

arXiv:2604.18892v1 Announce Type: new
Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) improves multimodal reasoning by rewarding verifiable final answers. Yet answer-correct trajectories may still rely on incomplete derivations, weak e…

Author name: Mengzhao Jia, Zhihan Zhang, Meng Jiang

Prioritizing the Best: Incentivizing Reliable Multimodal Reasoning by Rewarding Beyond Answer Correctness