Pascal Tilli, Mohsen Mesgar

Beyond Bag-of-Patches: Learning Global Layout via Textual Supervision for Late-Interaction Visual Document Retrieval

Pascal Tilli, Mohsen Mesgar / May 12, 2026

arXiv:2605.08421v1 Announce Type: new
Abstract: Visual Document Retrieval (VDR) models mostly rely on late interaction architectures, in which documents are represented by a set of local patch embeddings and then matched against query tokens. While ef…

Author name: Pascal Tilli, Mohsen Mesgar

Beyond Bag-of-Patches: Learning Global Layout via Textual Supervision for Late-Interaction Visual Document Retrieval