Ku Onoda, Paavo Parmas, Manato Yaguchi, Yutaka Matsuo

Does “Do Differentiable Simulators Give Better Policy Gradients?” Give Better Policy Gradients?

Ku Onoda, Paavo Parmas, Manato Yaguchi, Yutaka Matsuo / April 21, 2026

arXiv:2604.18161v1 Announce Type: cross
Abstract: In policy gradient reinforcement learning, access to a differentiable model enables 1st-order gradient estimation that accelerates learning compared to relying solely on derivative-free 0th-order estim…

Author name: Ku Onoda, Paavo Parmas, Manato Yaguchi, Yutaka Matsuo

Does “Do Differentiable Simulators Give Better Policy Gradients?” Give Better Policy Gradients?