Huatian Zhang, Zhendong Mao, Lei Zhang, Yongdong Zhang

Uncertainty-Aware Exploratory Direct Preference Optimization for Multimodal Large Language Models

Huatian Zhang, Zhendong Mao, Lei Zhang, Yongdong Zhang / May 7, 2026

arXiv:2605.04874v1 Announce Type: cross
Abstract: Direct Preference Optimization (DPO) has proven to be an effective solution for mitigating hallucination in Multimodal Large Language Models (MLLMs) by learning from preference pairs. One of its key ch…

Author name: Huatian Zhang, Zhendong Mao, Lei Zhang, Yongdong Zhang

Uncertainty-Aware Exploratory Direct Preference Optimization for Multimodal Large Language Models