Egor Denisov, Svetlana Glazyrina, Maksim Kryzhanovskiy, Roman Ischenko

Smooth Gate Functions for Soft Advantage Policy Optimization

Egor Denisov, Svetlana Glazyrina, Maksim Kryzhanovskiy, Roman Ischenko / March 26, 2026

arXiv:2602.19345v2 Announce Type: replace-cross
Abstract: Group Relative Policy Optimization (GRPO) has significantly advanced the training of large language models and enhanced their reasoning capabilities, while it remains susceptible to instability…

Author name: Egor Denisov, Svetlana Glazyrina, Maksim Kryzhanovskiy, Roman Ischenko

Smooth Gate Functions for Soft Advantage Policy Optimization