Dhruv Parikh, Jacob Fein-Ashley, Rajgopal Kannan, Viktor Prasanna

Latent Denoising Improves Visual Alignment in Large Multimodal Models

Dhruv Parikh, Jacob Fein-Ashley, Rajgopal Kannan, Viktor Prasanna / April 24, 2026

arXiv:2604.21343v1 Announce Type: new
Abstract: Large Multimodal Models (LMMs) such as LLaVA are typically trained with an autoregressive language modeling objective, providing only indirect supervision to visual tokens. This often yields weak interna…

Author name: Dhruv Parikh, Jacob Fein-Ashley, Rajgopal Kannan, Viktor Prasanna

Latent Denoising Improves Visual Alignment in Large Multimodal Models