Haichen Hu, Jian Qian, David Simchi-Levi

Model-Based Reinforcement Learning with Double Oracle Efficiency in Policy Optimization and Offline Estimation

Haichen Hu, Jian Qian, David Simchi-Levi / May 4, 2026

arXiv:2605.00393v1 Announce Type: new
Abstract: Reinforcement learning (RL) in large environments often suffers from severe computational bottlenecks, as conventional regret minimization algorithms require repeated, costly calls to planning and statis…

Author name: Haichen Hu, Jian Qian, David Simchi-Levi

Model-Based Reinforcement Learning with Double Oracle Efficiency in Policy Optimization and Offline Estimation