Shengji Jin, Yuanhao Zou, Victor Zhu, Zhengping Ji, Chen Chen

How Should Video LLMs Output Time? An Analysis of Efficient Temporal Grounding Paradigms

Shengji Jin, Yuanhao Zou, Victor Zhu, Zhengping Ji, Chen Chen / April 13, 2026

arXiv:2604.08966v1 Announce Type: new
Abstract: While Multimodal Large Language Models (MLLMs) have advanced Video Temporal Grounding (VTG), existing methods often couple output paradigms with different backbones, datasets, and training protocols. Thi…

Author name: Shengji Jin, Yuanhao Zou, Victor Zhu, Zhengping Ji, Chen Chen

How Should Video LLMs Output Time? An Analysis of Efficient Temporal Grounding Paradigms