Derek Lilienthal, Manisha Mukherjee, Sameera Horawalavithana

Reward Design for Physical Reasoning in Vision-Language Models

Derek Lilienthal, Manisha Mukherjee, Sameera Horawalavithana / April 16, 2026

arXiv:2604.13993v1 Announce Type: new
Abstract: Physical reasoning over visual inputs demands tight integration of visual perception, domain knowledge, and multi-step symbolic inference. Yet even state-of-the-art Vision Language Models (VLMs) fall far…

Author name: Derek Lilienthal, Manisha Mukherjee, Sameera Horawalavithana

Reward Design for Physical Reasoning in Vision-Language Models