Rudray Dave, Vedang Dubey, Smit Deoghare, Sudhakar Mishra

Selector-Guided Autonomous Curriculum for One-Shot Reinforcement Learning from Verifiable Rewards

Rudray Dave, Vedang Dubey, Smit Deoghare, Sudhakar Mishra / May 5, 2026

arXiv:2605.01823v1 Announce Type: cross
Abstract: Recently, Reinforcement Learning from Verifiable Rewards (RLVR) has been established as a highly effective technique for augmenting the math reasoning skills of Large Language Models (LLMs) based on a …

Author name: Rudray Dave, Vedang Dubey, Smit Deoghare, Sudhakar Mishra

Selector-Guided Autonomous Curriculum for One-Shot Reinforcement Learning from Verifiable Rewards