Yuan Fang, Yiming Luo, Aimin Zhou, Fei Tan

Reverse Constitutional AI: A Framework for Controllable Toxic Data Generation via Probability-Clamped RLAIF

Yuan Fang, Yiming Luo, Aimin Zhou, Fei Tan / April 21, 2026

arXiv:2604.17769v1 Announce Type: new
Abstract: Ensuring the safety of large language models (LLMs) requires robust red teaming, yet the systematic synthesis of high-quality toxic data remains under-explored. We propose Reverse Constitutional AI (R-CA…

Author name: Yuan Fang, Yiming Luo, Aimin Zhou, Fei Tan

Reverse Constitutional AI: A Framework for Controllable Toxic Data Generation via Probability-Clamped RLAIF