Wenquan Lu, Hai Huang, Enqi Liu, Randall Balestriero

PrAg-PO: Prompt Augmented Policy Optimization for Robust and Diverse Mathematical Reasoning

Wenquan Lu, Hai Huang, Enqi Liu, Randall Balestriero / May 12, 2026

arXiv:2602.03190v3 Announce Type: replace-cross
Abstract: Reinforcement learning algorithms such as group-relative policy optimization (GRPO) have shown strong potential for improving the mathematical reasoning capabilities of large language models. W…

Author name: Wenquan Lu, Hai Huang, Enqi Liu, Randall Balestriero

PrAg-PO: Prompt Augmented Policy Optimization for Robust and Diverse Mathematical Reasoning