Author name: Utsav Maskey, Sumit Yadav, Mark Dras, Usman Naseem

SafeConstellations: Mitigating Over-Refusals in LLMs Through Task-Aware Representation Steering

Utsav Maskey, Sumit Yadav, Mark Dras, Usman Naseem / April 21, 2026

arXiv:2508.11290v4 Announce Type: replace
Abstract: LLMs increasingly exhibit over-refusal behavior, where safety mechanisms cause models to reject benign instructions that seemingly resemble harmful content. This phenomenon diminishes utility in prod…

cs.CL

SafeConstellations: Mitigating Over-Refusals in LLMs Through Task-Aware Representation Steering

Utsav Maskey, Sumit Yadav, Mark Dras, Usman Naseem / April 14, 2026

arXiv:2508.11290v3 Announce Type: replace
Abstract: LLMs increasingly exhibit over-refusal behavior, where safety mechanisms cause models to reject benign instructions that seemingly resemble harmful content. This phenomenon diminishes utility in prod…