Muhammad Khalifa, Zohaib Khan, Omer Tafveez, Hao Peng, Lu Wang

Countdown-Code: A Testbed for Studying The Emergence and Generalization of Reward Hacking in RLVR

Muhammad Khalifa, Zohaib Khan, Omer Tafveez, Hao Peng, Lu Wang / April 21, 2026

arXiv:2603.07084v2 Announce Type: replace
Abstract: Reward hacking is a form of misalignment in which models overoptimize proxy rewards without genuinely solving the underlying task. Precisely measuring reward hacking occurrence remains challenging be…

Author name: Muhammad Khalifa, Zohaib Khan, Omer Tafveez, Hao Peng, Lu Wang

Countdown-Code: A Testbed for Studying The Emergence and Generalization of Reward Hacking in RLVR