Laurence Bonat, Francesco Tonini, Elisa Ricci, Lorenzo Vaquero

Training-Free Semantic Multi-Object Tracking with Vision-Language Models

Laurence Bonat, Francesco Tonini, Elisa Ricci, Lorenzo Vaquero / April 16, 2026

arXiv:2604.14074v1 Announce Type: new
Abstract: Semantic Multi-Object Tracking (SMOT) extends multi-object tracking with semantic outputs such as video summaries, instance-level captions, and interaction labels, aiming to move from trajectories to hum…

Author name: Laurence Bonat, Francesco Tonini, Elisa Ricci, Lorenzo Vaquero

Training-Free Semantic Multi-Object Tracking with Vision-Language Models