Yixuan Even Xu, Yash Savani, Fei Fang, J. Zico Kolter

Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning

Yixuan Even Xu, Yash Savani, Fei Fang, J. Zico Kolter / April 14, 2026

arXiv:2504.13818v4 Announce Type: replace-cross
Abstract: Reinforcement learning with verifiable rewards (RLVR) has emerged as the leading approach for enhancing reasoning capabilities in large language models. However, it faces a fundamental compute …

Author name: Yixuan Even Xu, Yash Savani, Fei Fang, J. Zico Kolter

Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning