Zikai Zhang, Rui Hu, Olivera Kotevska, Jiahao Xu

SelfGrader: Stable Jailbreak Detection for Large Language Models using Token-Level Logits

Zikai Zhang, Rui Hu, Olivera Kotevska, Jiahao Xu / April 17, 2026

arXiv:2604.01473v2 Announce Type: replace-cross
Abstract: Large Language Models (LLMs) are powerful tools for answering user queries, yet they remain highly vulnerable to jailbreak attacks. Existing guardrail methods typically rely on internal feature…

Author name: Zikai Zhang, Rui Hu, Olivera Kotevska, Jiahao Xu

SelfGrader: Stable Jailbreak Detection for Large Language Models using Token-Level Logits