Yuheng Zhang, Claire Chen, Nan Jiang

Beyond Pessimism: Offline Learning in KL-regularized Games

Yuheng Zhang, Claire Chen, Nan Jiang / April 9, 2026

arXiv:2604.06738v1 Announce Type: cross
Abstract: We study offline learning in KL-regularized two-player zero-sum games, where policies are optimized under a KL constraint to a fixed reference policy. Prior work relies on pessimistic value estimation …

Author name: Yuheng Zhang, Claire Chen, Nan Jiang

Beyond Pessimism: Offline Learning in KL-regularized Games