Zixuan Xia, Quanxi Li

K-Score: Kalman Filter as a Principled Alternative to Reward Normalization in Reinforcement Learning

Zixuan Xia, Quanxi Li / April 28, 2026

arXiv:2604.23056v1 Announce Type: cross
Abstract: We propose a simple yet effective alternative to reward normalization in policy gradient reinforcement learning by integrating a 1D Kalman filter for online reward estimation. Instead of relying on fix…

Author name: Zixuan Xia, Quanxi Li

K-Score: Kalman Filter as a Principled Alternative to Reward Normalization in Reinforcement Learning