Nikita Kezins, Urbas Ekka, Pascal Berrang, Luca Arnaboldi

Beyond Red-Teaming: Formal Guarantees of LLM Guardrail Classifiers

Nikita Kezins, Urbas Ekka, Pascal Berrang, Luca Arnaboldi / May 12, 2026

arXiv:2605.10901v1 Announce Type: new
Abstract: Guardrail Classifiers defend production language models against harmful behavior, but although results seem promising in testing, they provide no formal guarantees. Providing formal guarantees for such m…

Author name: Nikita Kezins, Urbas Ekka, Pascal Berrang, Luca Arnaboldi

Beyond Red-Teaming: Formal Guarantees of LLM Guardrail Classifiers