Keuntae Kim, Mingyu Kang, Yong Suk Choi

Thinking Diffusion: Penalize and Guide Visual-Grounded Reasoning in Diffusion Multimodal Language Models

Keuntae Kim, Mingyu Kang, Yong Suk Choi / April 8, 2026

arXiv:2604.05497v1 Announce Type: cross
Abstract: Diffusion large language models (dLLMs) are emerging as promising alternatives to autoregressive (AR) LLMs. Recently, this paradigm has been extended to multimodal tasks, leading to the development of …

Author name: Keuntae Kim, Mingyu Kang, Yong Suk Choi

Thinking Diffusion: Penalize and Guide Visual-Grounded Reasoning in Diffusion Multimodal Language Models