Zeguan Xiao, Yun Chen, Guanhua Chen, Ke Tang

Towards Bridging the Reward-Generation Gap in Direct Alignment Algorithms

Zeguan Xiao, Yun Chen, Guanhua Chen, Ke Tang / April 17, 2026

arXiv:2506.09457v3 Announce Type: replace-cross
Abstract: Direct Alignment Algorithms (DAAs), such as Direct Preference Optimization (DPO) and Simple Preference Optimization (SimPO), have emerged as efficient alternatives to Reinforcement Learning fro…

Author name: Zeguan Xiao, Yun Chen, Guanhua Chen, Ke Tang

Towards Bridging the Reward-Generation Gap in Direct Alignment Algorithms