Zhiyuan Zhai, Xin Wang

Selective Rollout: Mid-Trajectory Termination for Multi-Sample Agent RL

Zhiyuan Zhai, Xin Wang / May 8, 2026

arXiv:2605.05802v1 Announce Type: new
Abstract: Group-relative RL training (GRPO) samples a small group of parallel rollouts for every training prompt and uses their within-group reward spread to compute per-trajectory advantages. In agentic environme…

Author name: Zhiyuan Zhai, Xin Wang

Selective Rollout: Mid-Trajectory Termination for Multi-Sample Agent RL