Zhiyang Li, Ao Ke, Yukun Cao, Xike Xie

KG-ViP: Bridging Knowledge Grounding and Visual Perception in Multi-modal LLMs for Visual Question Answering

Zhiyang Li, Ao Ke, Yukun Cao, Xike Xie / April 22, 2026

arXiv:2601.11632v2 Announce Type: replace
Abstract: Multi-modal Large Language Models (MLLMs) for Visual Question Answering (VQA) often suffer from dual limitations: knowledge hallucination and insufficient fine-grained visual perception. Crucially, w…

Author name: Zhiyang Li, Ao Ke, Yukun Cao, Xike Xie

KG-ViP: Bridging Knowledge Grounding and Visual Perception in Multi-modal LLMs for Visual Question Answering