Yabo Zhang, Kunchang Li, Dewei Zhou, Xinyu Huang, Xun Wang

Images in Sentences: Scaling Interleaved Instructions for Unified Visual Generation

Yabo Zhang, Kunchang Li, Dewei Zhou, Xinyu Huang, Xun Wang / May 13, 2026

arXiv:2605.12305v1 Announce Type: new
Abstract: While recent advancements in multimodal language models have enabled image generation from expressive multi-image instructions, existing methods struggle to maintain performance under complex interleaved…

Author name: Yabo Zhang, Kunchang Li, Dewei Zhou, Xinyu Huang, Xun Wang

Images in Sentences: Scaling Interleaved Instructions for Unified Visual Generation