Chengyu Huang, Sheng-Yen Chou, Zhengxin Zhang, Claire Cardie

Bootstrapping Post-training Signals for Open-ended Tasks via Rubric-based Self-play on Pre-training Text

Chengyu Huang, Sheng-Yen Chou, Zhengxin Zhang, Claire Cardie / April 23, 2026

arXiv:2604.20051v1 Announce Type: cross
Abstract: Self-play has recently emerged as a promising paradigm to train Large Language Models (LLMs). In self-play, the target LLM creates the task input (e.g., ask a question), which it then addresses itself …

Author name: Chengyu Huang, Sheng-Yen Chou, Zhengxin Zhang, Claire Cardie

Bootstrapping Post-training Signals for Open-ended Tasks via Rubric-based Self-play on Pre-training Text