Abdulhady Abas Abdullah, Fatemeh Daneshfar, Seyedali Mirjalili, Mourad Oussalah

TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization

Abdulhady Abas Abdullah, Fatemeh Daneshfar, Seyedali Mirjalili, Mourad Oussalah / May 5, 2026

arXiv:2605.00224v1 Announce Type: new
Abstract: Aligning large language models (LLMs) with human preferences is commonly done via reinforcement learning from human feedback (RLHF) with Proximal Policy Optimization (PPO) or, more simply, via Direct Pre…

Author name: Abdulhady Abas Abdullah, Fatemeh Daneshfar, Seyedali Mirjalili, Mourad Oussalah

TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization