Tiantian Zhang, Jierui Zuo, Wenping Wang

DDO-RM for LLM Preference Optimization: A Minimal Held-Out Benchmark against DPO

Tiantian Zhang, Jierui Zuo, Wenping Wang / April 14, 2026

arXiv:2604.11119v1 Announce Type: new
Abstract: This paper reorganizes the current manuscript around the DPO versus DDO-RM preference-optimization project and focuses on two parts: the algorithmic view and the preliminary held-out benchmark. The bench…

Author name: Tiantian Zhang, Jierui Zuo, Wenping Wang

DDO-RM for LLM Preference Optimization: A Minimal Held-Out Benchmark against DPO