Qishun Yang, Shu Yang, Lijie Hu, Di Wang

Visual Self-Fulfilling Alignment: Shaping Safety-Oriented Personas via Threat-Related Images

Qishun Yang, Shu Yang, Lijie Hu, Di Wang / April 16, 2026

arXiv:2603.08486v2 Announce Type: replace-cross
Abstract: Multimodal large language models (MLLMs) face safety misalignment, where visual inputs enable harmful outputs. To address this, existing methods require explicit safety labels or contrastive da…

Author name: Qishun Yang, Shu Yang, Lijie Hu, Di Wang

Visual Self-Fulfilling Alignment: Shaping Safety-Oriented Personas via Threat-Related Images