Author name: Miguel Carvalho, Helder Dias, Bruno Martins

CropVLM: Learning to Zoom for Fine-Grained Vision-Language Perception

Miguel Carvalho, Helder Dias, Bruno Martins / April 15, 2026

arXiv:2511.19820v2 Announce Type: replace-cross
Abstract: Vision-Language Models (VLMs) often struggle with tasks that require fine-grained image understanding, such as scene-text recognition or document analysis, due to perception limitations and vis…

cs.AI, cs.CL, cs.CV, cs.LG

CropVLM: Learning to Zoom for Fine-Grained Vision-Language Perception

Miguel Carvalho, Helder Dias, Bruno Martins / April 15, 2026