Washim Uddin Mondal, Vaneet Aggarwal

Last-Iterate Convergence of General Parameterized Policies in Constrained MDPs

Washim Uddin Mondal, Vaneet Aggarwal / May 4, 2026

arXiv:2408.11513v2 Announce Type: replace-cross
Abstract: This paper focuses on learning a Constrained Markov Decision Process (CMDP) via general parameterized policies. We propose a Primal-Dual based Regularized Accelerated Natural Policy Gradient (P…

Author name: Washim Uddin Mondal, Vaneet Aggarwal

Last-Iterate Convergence of General Parameterized Policies in Constrained MDPs