Guy Zamir, Matthew Zurek, Yudong Chen

Optimal Variance-Dependent Regret Bounds for Infinite-Horizon MDPs

Guy Zamir, Matthew Zurek, Yudong Chen / March 26, 2026

arXiv:2603.23926v1 Announce Type: new
Abstract: Online reinforcement learning in infinite-horizon Markov decision processes (MDPs) remains less theoretically and algorithmically developed than its episodic counterpart, with many algorithms suffering f…

Author name: Guy Zamir, Matthew Zurek, Yudong Chen

Optimal Variance-Dependent Regret Bounds for Infinite-Horizon MDPs