Deeraj S K, Sadhana Devarajan, Krishna Mehra, Sudhakar Mishra

Can You Break RLVER? Probing Adversarial Robustness of RL-Trained Empathetic Agents

Deeraj S K, Sadhana Devarajan, Krishna Mehra, Sudhakar Mishra / May 11, 2026

arXiv:2605.07138v1 Announce Type: new
Abstract: Reinforcement learning from verifiable emotion rewards RLVER has produced language models with strong empathetic performance, evaluated on benchmarks that assume cooperative, honest users. Yet real emoti…

Author name: Deeraj S K, Sadhana Devarajan, Krishna Mehra, Sudhakar Mishra

Can You Break RLVER? Probing Adversarial Robustness of RL-Trained Empathetic Agents