Naomi Kombol, Ivan Martinovi\'c, Sini\v{s}a \v{S}egvi\'c, Giorgos Tolias

SPAR: Single-Pass Any-Resolution ViT for Open-vocabulary Segmentation

Naomi Kombol, Ivan Martinovi\'c, Sini\v{s}a \v{S}egvi\'c, Giorgos Tolias / April 3, 2026

arXiv:2604.02252v1 Announce Type: new
Abstract: Foundational Vision Transformers (ViTs) have limited effectiveness in tasks requiring fine-grained spatial understanding, due to their fixed pre-training resolution and inherently coarse patch-level repr…

Author name: Naomi Kombol, Ivan Martinovi\'c, Sini\v{s}a \v{S}egvi\'c, Giorgos Tolias

SPAR: Single-Pass Any-Resolution ViT for Open-vocabulary Segmentation