Linh Le, David Williams-King, Mohamed Amine Merzouk, Aton Kamanda, Adam Oberman

Latent Personality Alignment: Improving Harmlessness Without Mentioning Harms

Linh Le, David Williams-King, Mohamed Amine Merzouk, Aton Kamanda, Adam Oberman / May 12, 2026

arXiv:2605.08496v1 Announce Type: new
Abstract: Current adversarial robustness methods for large language models require extensive datasets of harmful prompts (thousands to hundreds of thousands of examples), yet remain vulnerable to novel attack vect…

Author name: Linh Le, David Williams-King, Mohamed Amine Merzouk, Aton Kamanda, Adam Oberman

Latent Personality Alignment: Improving Harmlessness Without Mentioning Harms