Ken Deng, Yifu Qiu, Yoni Kasten, Shay B. Cohen, Yftah Ziser

Lost in Space? Vision-Language Models Struggle with Relative Camera Pose Estimation

Ken Deng, Yifu Qiu, Yoni Kasten, Shay B. Cohen, Yftah Ziser / May 1, 2026

arXiv:2601.22228v2 Announce Type: replace-cross
Abstract: We study whether vision-language models (VLMs) can solve relative camera pose estimation (RCPE) from image pairs, a direct test of multi-view spatial reasoning. We cast RCPE as a discrete verba…

Author name: Ken Deng, Yifu Qiu, Yoni Kasten, Shay B. Cohen, Yftah Ziser

Lost in Space? Vision-Language Models Struggle with Relative Camera Pose Estimation