Yuxi Li, Yi Liu, Yuekang Li, Ling Shi, Gelei Deng, Shengquan Chen, Kailong Wang

Uncovering Logit Suppression Vulnerabilities in LLM Safety Alignment

Yuxi Li, Yi Liu, Yuekang Li, Ling Shi, Gelei Deng, Shengquan Chen, Kailong Wang / April 21, 2026

arXiv:2405.13068v4 Announce Type: replace-cross
Abstract: Large language models (LLMs) have revolutionized various applications, making robust safety alignment essential to prevent harmful outputs. Current safety alignment techniques, however, harbor …

Author name: Yuxi Li, Yi Liu, Yuekang Li, Ling Shi, Gelei Deng, Shengquan Chen, Kailong Wang

Uncovering Logit Suppression Vulnerabilities in LLM Safety Alignment