Shentong Mo, Sukmin Yun

LVRPO: Language-Visual Alignment with GRPO for Multimodal Understanding and Generation

Shentong Mo, Sukmin Yun / March 31, 2026

arXiv:2603.27693v1 Announce Type: cross
Abstract: Unified multimodal pretraining has emerged as a promising paradigm for jointly modeling language and vision within a single foundation model. However, existing approaches largely rely on implicit or in…

Author name: Shentong Mo, Sukmin Yun

LVRPO: Language-Visual Alignment with GRPO for Multimodal Understanding and Generation