Xingyu Fan, Wei Shao, Jiacheng Liu, Linqi Song, Pheng Ann Heng

PARM: Pipeline-Adapted Reward Model

Xingyu Fan, Wei Shao, Jiacheng Liu, Linqi Song, Pheng Ann Heng / April 21, 2026

arXiv:2604.18327v1 Announce Type: cross
Abstract: Reward models (RMs) are central to aligning large language models (LLMs) with human preferences, powering RLHF and advanced decoding strategies. While most prior work focuses on single-step generation,…

Author name: Xingyu Fan, Wei Shao, Jiacheng Liu, Linqi Song, Pheng Ann Heng

PARM: Pipeline-Adapted Reward Model