Md Asiful Islam, Mihai Surdeanu

A Lightweight Explainable Guardrail for Prompt Safety

Md Asiful Islam, Mihai Surdeanu / April 28, 2026

arXiv:2602.15853v2 Announce Type: replace-cross
Abstract: We propose a lightweight explainable guardrail (LEG) method to detect unsafe prompts. LEG uses a multi-task learning architecture to jointly learn a prompt classifier and an explanation classif…

Author name: Md Asiful Islam, Mihai Surdeanu

A Lightweight Explainable Guardrail for Prompt Safety