Cheng Wang, Qin Liu, Wenxuan Zhou, Muhao Chen

Taming Extreme Tokens: Covariance-Aware GRPO with Gaussian-Kernel Advantage Reweighting

Cheng Wang, Qin Liu, Wenxuan Zhou, Muhao Chen / May 13, 2026

arXiv:2605.11538v1 Announce Type: new
Abstract: Group Relative Policy Optimization (GRPO) has emerged as a promising approach for improving the reasoning capabilities of large language models. However, it struggles to effectively balance the tradeoff …

Author name: Cheng Wang, Qin Liu, Wenxuan Zhou, Muhao Chen

Taming Extreme Tokens: Covariance-Aware GRPO with Gaussian-Kernel Advantage Reweighting