Leonardo Cesani, Matteo Papini, Marcello Restelli

How Log-Barrier Helps Exploration in Policy Optimization

Leonardo Cesani, Matteo Papini, Marcello Restelli / May 11, 2026

arXiv:2603.15001v2 Announce Type: replace-cross
Abstract: Recently, it has been shown that the Stochastic Gradient Bandit (SGB) algorithm converges to a globally optimal policy with a constant learning rate. However, these guarantees rely on unrealist…

Author name: Leonardo Cesani, Matteo Papini, Marcello Restelli

How Log-Barrier Helps Exploration in Policy Optimization