Sujung Hong, Chanyong Yoon, Seongjae Hwang

Mitigating Mask Prior Drift and Positional Attention Collapse in Large Diffusion Vision-Language Models

Sujung Hong, Chanyong Yoon, Seongjae Hwang / May 15, 2026

arXiv:2605.14530v1 Announce Type: new
Abstract: Large diffusion vision-language models (LDVLMs) have recently emerged as a promising alternative to autoregressive models, enabling parallel decoding for efficient inference and leveraging bidirectional …

Author name: Sujung Hong, Chanyong Yoon, Seongjae Hwang

Mitigating Mask Prior Drift and Positional Attention Collapse in Large Diffusion Vision-Language Models