Guy Yariv, Idan Schwartz, Yossi Adi, Sagie Benaim

LaMI: Augmenting Large Language Models via Late Multi-Image Fusion

Guy Yariv, Idan Schwartz, Yossi Adi, Sagie Benaim / April 14, 2026

arXiv:2406.13621v2 Announce Type: replace
Abstract: Commonsense reasoning often requires both textual and visual knowledge, yet Large Language Models (LLMs) trained solely on text lack visual grounding (e.g., “what color is an emperor penguin’s belly?…

Author name: Guy Yariv, Idan Schwartz, Yossi Adi, Sagie Benaim

LaMI: Augmenting Large Language Models via Late Multi-Image Fusion