Lipeng Zu, Yu Qian, Shayok Chakraborty, Xiaonan Zhang

From Static Constraints to Dynamic Adaptation: Sample-Level Constraint Release for Offline-to-Online Reinforcement Learning

Lipeng Zu, Yu Qian, Shayok Chakraborty, Xiaonan Zhang / May 5, 2026

arXiv:2511.03828v2 Announce Type: replace
Abstract: Offline-to-online reinforcement learning (O2O RL) faces a central challenge between retaining offline conservatism and adapting to online feedback under distribution shift. This challenge arises beca…

Author name: Lipeng Zu, Yu Qian, Shayok Chakraborty, Xiaonan Zhang

From Static Constraints to Dynamic Adaptation: Sample-Level Constraint Release for Offline-to-Online Reinforcement Learning