Yihao Quan, Zeru Shi, Jinman Zhao, Ruixiang Tang

Reinforcing Consistency in Video MLLMs with Structured Rewards

Yihao Quan, Zeru Shi, Jinman Zhao, Ruixiang Tang / April 3, 2026

arXiv:2604.01460v1 Announce Type: new
Abstract: Multimodal large language models (MLLMs) have achieved remarkable progress in video understanding. However, seemingly plausible outputs often suffer from poor visual and temporal grounding: a model may f…

Author name: Yihao Quan, Zeru Shi, Jinman Zhao, Ruixiang Tang

Reinforcing Consistency in Video MLLMs with Structured Rewards