Shi Feng, Hanlin Zhang, Fan Nie, Sham Kakade, Yiling Chen

Peer-Predictive Self-Training for Language Model Reasoning

Shi Feng, Hanlin Zhang, Fan Nie, Sham Kakade, Yiling Chen / April 16, 2026

arXiv:2604.13356v1 Announce Type: cross
Abstract: Mechanisms for continued self-improvement of language models without external supervision remain an open challenge. We propose Peer-Predictive Self-Training (PST), a label-free fine-tuning framework in…

Author name: Shi Feng, Hanlin Zhang, Fan Nie, Sham Kakade, Yiling Chen

Peer-Predictive Self-Training for Language Model Reasoning