Ruoliu Yang, Chu Wu, Caifeng Shan, Ran He, Chaoyou Fu

VideoDetective: Clue Hunting via both Extrinsic Query and Intrinsic Relevance for Long Video Understanding

Ruoliu Yang, Chu Wu, Caifeng Shan, Ran He, Chaoyou Fu / May 4, 2026

arXiv:2603.22285v2 Announce Type: replace
Abstract: Long video understanding remains challenging for multimodal large language models (MLLMs) due to limited context windows, which necessitate identifying sparse query-relevant video segments. However, …

Author name: Ruoliu Yang, Chu Wu, Caifeng Shan, Ran He, Chaoyou Fu

VideoDetective: Clue Hunting via both Extrinsic Query and Intrinsic Relevance for Long Video Understanding