Muhammad Kamran Janjua, Hugo Silva, Di Niu, Bahador Rashidi

Don’t Show Pixels, Show Cues: Unlocking Visual Tool Reasoning in Language Models via Perception Programs

Muhammad Kamran Janjua, Hugo Silva, Di Niu, Bahador Rashidi / April 15, 2026

arXiv:2604.12896v1 Announce Type: cross
Abstract: Multimodal language models (MLLMs) are increasingly paired with vision tools (e.g., depth, flow, correspondence) to enhance visual reasoning. However, despite access to these tool-generated visual cues…

Author name: Muhammad Kamran Janjua, Hugo Silva, Di Niu, Bahador Rashidi

Don’t Show Pixels, Show Cues: Unlocking Visual Tool Reasoning in Language Models via Perception Programs