Armin Gerami, Seyedehanita Madani, Ramani Duraiswami

On The Application of Linear Attention in Multimodal Transformers

Armin Gerami, Seyedehanita Madani, Ramani Duraiswami / April 14, 2026

arXiv:2604.10064v1 Announce Type: new
Abstract: Multimodal Transformers serve as the backbone for state-of-the-art vision-language models, yet their quadratic attention complexity remains a critical barrier to scalability. In this work, we investigate…

Author name: Armin Gerami, Seyedehanita Madani, Ramani Duraiswami

On The Application of Linear Attention in Multimodal Transformers