Ansel Blume, Burak Uzkent, Shalini Chaudhuri, Garin Kessler

Learning to Rank Caption Chains for Video-Text Alignment

Ansel Blume, Burak Uzkent, Shalini Chaudhuri, Garin Kessler / March 27, 2026

arXiv:2603.25145v1 Announce Type: new
Abstract: Direct preference optimization (DPO) is an effective technique to train language models to generate preferred over dispreferred responses. However, this binary “winner-takes-all” approach is suboptimal f…

Author name: Ansel Blume, Burak Uzkent, Shalini Chaudhuri, Garin Kessler

Learning to Rank Caption Chains for Video-Text Alignment