Tue Le, Linh Ngo Van, Trung Le

Sharpness-Guided Group Relative Policy Optimization via Probability Shaping

Tue Le, Linh Ngo Van, Trung Le / May 14, 2026

arXiv:2511.00066v4 Announce Type: replace
Abstract: Reinforcement learning with verifiable rewards (RLVR) has become a practical route to improve large language model reasoning, and Group Relative Policy Optimization (GRPO) is a widely used optimizer …

Author name: Tue Le, Linh Ngo Van, Trung Le

Sharpness-Guided Group Relative Policy Optimization via Probability Shaping