Longtian Qiu, Shan Ning, Jiaxuan Sun, Xuming He

NoisyGRPO: Incentivizing Multimodal CoT Reasoning via Noise Injection and Bayesian Estimation

Longtian Qiu, Shan Ning, Jiaxuan Sun, Xuming He / April 8, 2026

arXiv:2510.21122v3 Announce Type: replace
Abstract: Reinforcement learning (RL) has shown promise in enhancing the general Chain-of-Thought (CoT) reasoning capabilities of multimodal large language models (MLLMs). However, when applied to improve gene…

Author name: Longtian Qiu, Shan Ning, Jiaxuan Sun, Xuming He

NoisyGRPO: Incentivizing Multimodal CoT Reasoning via Noise Injection and Bayesian Estimation