Perry Dong, Qiyang Li, Dorsa Sadigh, Chelsea Finn

EXPO: Stable Reinforcement Learning with Expressive Policies

Perry Dong, Qiyang Li, Dorsa Sadigh, Chelsea Finn / May 1, 2026

arXiv:2507.07986v3 Announce Type: replace
Abstract: We study the problem of training and fine-tuning expressive policies with online reinforcement learning (RL) given an offline dataset. Training expressive policy classes with online RL present a uniq…

Author name: Perry Dong, Qiyang Li, Dorsa Sadigh, Chelsea Finn

EXPO: Stable Reinforcement Learning with Expressive Policies