Shaokun Wang, Weili Guan, Jizhou Han, Jianlong Wu, Yupeng Hu, Liqiang Nie

StructAlign: Structured Cross-Modal Alignment for Continual Text-to-Video Retrieval

Shaokun Wang, Weili Guan, Jizhou Han, Jianlong Wu, Yupeng Hu, Liqiang Nie / April 28, 2026

arXiv:2601.20597v2 Announce Type: replace
Abstract: Continual Text-to-Video Retrieval (CTVR) is a challenging multimodal continual learning setting, where models must incrementally learn new semantic categories while maintaining accurate text-video al…

Author name: Shaokun Wang, Weili Guan, Jizhou Han, Jianlong Wu, Yupeng Hu, Liqiang Nie

StructAlign: Structured Cross-Modal Alignment for Continual Text-to-Video Retrieval