Junfu Pu, Yuxin Chen, Teng Wang, Ying Shan

OmniScript: Towards Audio-Visual Script Generation for Long-Form Cinematic Video

Junfu Pu, Yuxin Chen, Teng Wang, Ying Shan / April 14, 2026

arXiv:2604.11102v1 Announce Type: new
Abstract: Current multimodal large language models (MLLMs) have demonstrated remarkable capabilities in short-form video understanding, yet translating long-form cinematic videos into detailed, temporally grounded…

Author name: Junfu Pu, Yuxin Chen, Teng Wang, Ying Shan

OmniScript: Towards Audio-Visual Script Generation for Long-Form Cinematic Video