Yiju Guo, Tianyi Hu, Zexu Sun, Yankai Lin

Less Noise, More Voice: Reinforcement Learning for Reasoning via Instruction Purification

Yiju Guo, Tianyi Hu, Zexu Sun, Yankai Lin / April 21, 2026

arXiv:2601.21244v3 Announce Type: replace-cross
Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has advanced LLM reasoning, but remains constrained by inefficient exploration under limited rollout budgets, leading to low sampling succe…

Author name: Yiju Guo, Tianyi Hu, Zexu Sun, Yankai Lin

Less Noise, More Voice: Reinforcement Learning for Reasoning via Instruction Purification