Mohammad Ghavamzadeh, Yaakov Engel, Michal Valko

Bayesian policy gradient and actor-critic algorithms

Mohammad Ghavamzadeh, Yaakov Engel, Michal Valko / May 1, 2026

arXiv:2604.27563v1 Announce Type: new
Abstract: Policy gradient methods are reinforcement learning algorithms that adapt a parameterized policy by following a performance gradient estimate. Conventional policy gradient methods use Monte-Carlo techniqu…

Author name: Mohammad Ghavamzadeh, Yaakov Engel, Michal Valko

Bayesian policy gradient and actor-critic algorithms