Wenhao Lan, Shan Li, Junbin Yang, Haihua Shen, Yijun Yang

Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry

Wenhao Lan, Shan Li, Junbin Yang, Haihua Shen, Yijun Yang / May 1, 2026

arXiv:2604.27019v1 Announce Type: new
Abstract: Safety-aligned language models must refuse harmful requests without collapsing into broad over-refusal, but the training-time mechanisms behind this tradeoff remain unclear. Prior work characterizes refu…

Author name: Wenhao Lan, Shan Li, Junbin Yang, Haihua Shen, Yijun Yang

Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry