Shiping Gao, Hongzhan Chen, Xiaojun Quan, Qifan Wang, Lifu Huang

Unleashing Implicit Rewards: Prefix-Value Learning for Distribution-Level Optimization

Shiping Gao, Hongzhan Chen, Xiaojun Quan, Qifan Wang, Lifu Huang / April 16, 2026

arXiv:2604.13197v1 Announce Type: new
Abstract: Process reward models (PRMs) provide fine-grained reward signals along the reasoning process, but training reliable PRMs often requires step annotations or heavy verification pipelines, making them expen…

Author name: Shiping Gao, Hongzhan Chen, Xiaojun Quan, Qifan Wang, Lifu Huang

Unleashing Implicit Rewards: Prefix-Value Learning for Distribution-Level Optimization