Min Wang, Ata Mahjoubfar

AMIGO: Agentic Multi-Image Grounding Oracle Benchmark

Min Wang, Ata Mahjoubfar / March 31, 2026

arXiv:2603.28662v1 Announce Type: new
Abstract: Agentic vision-language models increasingly act through extended interactions, but most evaluations still focus on single-image, single-turn correctness. We introduce AMIGO (Agentic Multi-Image Grounding…

Author name: Min Wang, Ata Mahjoubfar

AMIGO: Agentic Multi-Image Grounding Oracle Benchmark