Rajdeep Haldar, Lantao Mei, Guang Lin, Yue Xing, Qifan Song

f-GRPO and Beyond: Divergence-Based Reinforcement Learning Algorithms for General LLM Alignment

Rajdeep Haldar, Lantao Mei, Guang Lin, Yue Xing, Qifan Song / May 12, 2026

arXiv:2602.05946v3 Announce Type: replace-cross
Abstract: Recent work shows that preference alignment objectives can be interpreted as divergence estimators between aligned (preferred) & unaligned (less-preferred) distributions, yielding a principled …

Author name: Rajdeep Haldar, Lantao Mei, Guang Lin, Yue Xing, Qifan Song

f-GRPO and Beyond: Divergence-Based Reinforcement Learning Algorithms for General LLM Alignment