Ishita Kakkar, Enze Zhang, Rheeya Uppaal, Junjie Hu

When Safety Fails Before the Answer: Benchmarking Harmful Behavior Detection in Reasoning Chains

Ishita Kakkar, Enze Zhang, Rheeya Uppaal, Junjie Hu / April 22, 2026

arXiv:2604.19001v1 Announce Type: new
Abstract: Large reasoning models (LRMs) produce complex, multi-step reasoning traces, yet safety evaluation remains focused on final outputs, overlooking how harm emerges during reasoning. When jailbroken, harm do…

Author name: Ishita Kakkar, Enze Zhang, Rheeya Uppaal, Junjie Hu

When Safety Fails Before the Answer: Benchmarking Harmful Behavior Detection in Reasoning Chains