Florian Stilz, Vinkle Srivastav, Nassir Navab, Nicolas Padoy

CliPPER: Contextual Video-Language Pretraining on Long-form Intraoperative Surgical Procedures for Event Recognition

Florian Stilz, Vinkle Srivastav, Nassir Navab, Nicolas Padoy / March 26, 2026

arXiv:2603.24539v1 Announce Type: cross
Abstract: Video-language foundation models have proven to be highly effective in zero-shot applications across a wide range of tasks. A particularly challenging area is the intraoperative surgical procedure doma…

Author name: Florian Stilz, Vinkle Srivastav, Nassir Navab, Nicolas Padoy

CliPPER: Contextual Video-Language Pretraining on Long-form Intraoperative Surgical Procedures for Event Recognition