Maham Nazir, Muhammad Aqeel, Richong Zhang, Francesco Setti

Multimodal Abstractive Summarization of Instructional Videos with Vision-Language Models

Maham Nazir, Muhammad Aqeel, Richong Zhang, Francesco Setti / May 13, 2026

arXiv:2605.11959v1 Announce Type: cross
Abstract: Multimodal video summarization requires visual features that align semantically with language generation. Traditional approaches rely on CNN features trained for object classification, which represent …

Author name: Maham Nazir, Muhammad Aqeel, Richong Zhang, Francesco Setti

Multimodal Abstractive Summarization of Instructional Videos with Vision-Language Models