Ziwen Pan, Zihan Liang, Jad Kabbara, Ali Emami

DART: Mitigating Harm Drift in Difference-Aware LLMs via Distill-Audit-Repair Training

Ziwen Pan, Zihan Liang, Jad Kabbara, Ali Emami / April 21, 2026

arXiv:2604.16845v1 Announce Type: new
Abstract: Large language models (LLMs) tuned for safety often avoid acknowledging demographic differences, even when such acknowledgment is factually correct (e.g., ancestry-based disease incidence) or contextuall…

Author name: Ziwen Pan, Zihan Liang, Jad Kabbara, Ali Emami

DART: Mitigating Harm Drift in Difference-Aware LLMs via Distill-Audit-Repair Training