Zhihao Ding, Jinming Li, Ze Lu, Jieming Shi

FlexGuard: Continuous Risk Scoring for Strictness-Adaptive LLM Content Moderation

Zhihao Ding, Jinming Li, Ze Lu, Jieming Shi / April 16, 2026

arXiv:2602.23636v3 Announce Type: replace-cross
Abstract: Ensuring the safety of LLM-generated content is essential for real-world deployment. Most existing guardrail models formulate moderation as a fixed binary classification task, implicitly assumi…

Author name: Zhihao Ding, Jinming Li, Ze Lu, Jieming Shi

FlexGuard: Continuous Risk Scoring for Strictness-Adaptive LLM Content Moderation