Tianle Chen, Deepti Ghadiyaram

A Systematic Study of Cross-Modal Typographic Attacks on Audio-Visual Reasoning

Tianle Chen, Deepti Ghadiyaram / April 7, 2026

arXiv:2604.03995v1 Announce Type: new
Abstract: As audio-visual multi-modal large language models (MLLMs) are increasingly deployed in safety-critical applications, understanding their vulnerabilities is crucial. To this end, we introduce Multi-Modal …

Author name: Tianle Chen, Deepti Ghadiyaram

A Systematic Study of Cross-Modal Typographic Attacks on Audio-Visual Reasoning