Author name: Beomchan Park, Seongho Kim, Hyunjun Kim, Sungjune Park, Yong Man Ro

Robust Grounding with MLLMs Against Occlusion and Small Objects via Language-Guided Semantic Cues

Beomchan Park, Seongho Kim, Hyunjun Kim, Sungjune Park, Yong Man Ro / April 30, 2026

arXiv:2604.24036v2 Announce Type: replace
Abstract: While Multimodal Large Language Models (MLLMs) have enhanced grounding capabilities in general scenes, their robustness in crowded scenes remains underexplored. Crowded scenes entail visual challenge…

cs.CV, eess.IV

Robust Grounding with MLLMs against Occlusion and Small Objects via Language-guided Semantic Cues

Beomchan Park, Seongho Kim, Hyunjun Kim, Sungjune Park, Yong Man Ro / April 28, 2026

arXiv:2604.24036v1 Announce Type: new
Abstract: While Multimodal Large Language Models (MLLMs) have enhanced grounding capabilities in general scenes, their robustness in crowded scenes remains underexplored. Crowded scenes entail visual challenges (i…