Ashim Dahal, Ankit Ghimire, Saydul Akbar Murad, Nick Rahimi

POVQA: Preference-Optimized Video Question Answering with Rationales for Data Efficiency

Ashim Dahal, Ankit Ghimire, Saydul Akbar Murad, Nick Rahimi / April 1, 2026

arXiv:2510.01009v3 Announce Type: replace
Abstract: Long-video multimodal question answering requires structured reasoning over visual evidence and dialogue, but Large Vision-Language Models (LVLMs) are constrained by context-window and compute limits…

Author name: Ashim Dahal, Ankit Ghimire, Saydul Akbar Murad, Nick Rahimi

POVQA: Preference-Optimized Video Question Answering with Rationales for Data Efficiency