Qiming Bao, Juho Leinonen, Paul Denny, Michael J. Witbrock

RLearner-LLM: Balancing Logical Grounding and Fluency in Large Language Models via Hybrid Direct Preference Optimization

Qiming Bao, Juho Leinonen, Paul Denny, Michael J. Witbrock / May 7, 2026

arXiv:2605.04539v1 Announce Type: new
Abstract: Direct Preference Optimization (DPO), the efficient alternative to PPO-based RLHF, falls short on knowledge-intensive generation: standard preference signals from human annotators or LLM judges exhibit a…

Author name: Qiming Bao, Juho Leinonen, Paul Denny, Michael J. Witbrock

RLearner-LLM: Balancing Logical Grounding and Fluency in Large Language Models via Hybrid Direct Preference Optimization