Ziqian Zhong, Shashwat Saxena, Aditi Raghunathan

Hodoscope: Unsupervised Monitoring for AI Misbehaviors

Ziqian Zhong, Shashwat Saxena, Aditi Raghunathan / April 14, 2026

arXiv:2604.11072v1 Announce Type: new
Abstract: Existing approaches to monitoring AI agents rely on supervised evaluation: human-written rules or LLM-based judges that check for known failure modes. However, novel misbehaviors may fall outside predefi…

Author name: Ziqian Zhong, Shashwat Saxena, Aditi Raghunathan

Hodoscope: Unsupervised Monitoring for AI Misbehaviors