Yao Shu, Chenxing Wei, Hongbin Lin, Shuang Qiu, Hui Xiong

Reference-Sampled Boltzmann Projection for KL-Regularized RLVR: Target-Matched Weighted SFT, Finite One-Shot Gaps, and Policy Mirror Descent

Yao Shu, Chenxing Wei, Hongbin Lin, Shuang Qiu, Hui Xiong / May 5, 2026

arXiv:2605.02469v1 Announce Type: cross
Abstract: Online reinforcement learning with verifiable rewards (RLVR) turns checkable outcomes into a scalable training signal, but it keeps rollout generation, verifier scoring, and reference-policy evaluation…

Author name: Yao Shu, Chenxing Wei, Hongbin Lin, Shuang Qiu, Hui Xiong

Reference-Sampled Boltzmann Projection for KL-Regularized RLVR: Target-Matched Weighted SFT, Finite One-Shot Gaps, and Policy Mirror Descent