Ravikumar Balakrishnan, Sanket Mendapara

One Perturbation, Two Failure Modes: Probing VLM Safety via Embedding-Guided Typographic Perturbations

Ravikumar Balakrishnan, Sanket Mendapara / April 29, 2026

arXiv:2604.25102v1 Announce Type: new
Abstract: Typographic prompt injection exploits vision language models’ (VLMs) ability to read text rendered in images, posing a growing threat as VLMs power autonomous agents. Prior work typically focus on maximi…

Author name: Ravikumar Balakrishnan, Sanket Mendapara

One Perturbation, Two Failure Modes: Probing VLM Safety via Embedding-Guided Typographic Perturbations