Anamika Lochab, Bolian Li, Ruqi Zhang

Uniform-Correct Policy Optimization: Breaking RLVR’s Indifference to Diversity

Anamika Lochab, Bolian Li, Ruqi Zhang / May 4, 2026

arXiv:2605.00365v1 Announce Type: cross
Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has achieved substantial gains in single-attempt accuracy (Pass@1) on reasoning tasks, yet often suffers from reduced multi-sample coverage (Pass@K…

Author name: Anamika Lochab, Bolian Li, Ruqi Zhang

Uniform-Correct Policy Optimization: Breaking RLVR’s Indifference to Diversity