Shuyang Jiang, Yuhao Wang, Ya Zhang, Yanfeng Wang, Yu Wang

Miner:Mining Intrinsic Mastery for Data-Efficient RL in Large Reasoning Models

Shuyang Jiang, Yuhao Wang, Ya Zhang, Yanfeng Wang, Yu Wang / May 11, 2026

arXiv:2601.04731v2 Announce Type: replace-cross
Abstract: Current critic-free RL methods for large reasoning models suffer from severe inefficiency when training on positive homogeneous prompts (where all rollouts are correct), resulting in waste of r…

Author name: Shuyang Jiang, Yuhao Wang, Ya Zhang, Yanfeng Wang, Yu Wang

Miner:Mining Intrinsic Mastery for Data-Efficient RL in Large Reasoning Models