Thong Bach, Truyen Tran

Guardrails in Logit Space: Safety Token Regularization for LLM Alignment

Thong Bach, Truyen Tran / April 21, 2026

arXiv:2604.17210v1 Announce Type: new
Abstract: Fine-tuning well-aligned large language models (LLMs) on new domains often degrades their safety alignment, even when using benign datasets. Existing safety alignment techniques primarily focus on pretra…

Author name: Thong Bach, Truyen Tran

Guardrails in Logit Space: Safety Token Regularization for LLM Alignment