Yiyang Du, Zhanqiu Guo, Xin Ye, Liu Ren, Chenyan Xiong

EmbodiedMidtrain: Bridging the Gap between Vision-Language Models and Vision-Language-Action Models via Mid-training

Yiyang Du, Zhanqiu Guo, Xin Ye, Liu Ren, Chenyan Xiong / April 23, 2026

arXiv:2604.20012v1 Announce Type: new
Abstract: Vision-Language-Action Models (VLAs) inherit their visual and linguistic capabilities from Vision-Language Models (VLMs), yet most VLAs are built from off-the-shelf VLMs that are not adapted to the embod…

Author name: Yiyang Du, Zhanqiu Guo, Xin Ye, Liu Ren, Chenyan Xiong

EmbodiedMidtrain: Bridging the Gap between Vision-Language Models and Vision-Language-Action Models via Mid-training