Andrew Choi, Wei Xu - Provide.ai

RankQ: Offline-to-Online Reinforcement Learning via Self-Supervised Action Ranking

Andrew Choi, Wei Xu / May 13, 2026

arXiv:2605.11151v1 Announce Type: cross
Abstract: Offline-to-online reinforcement learning (RL) improves sample efficiency by leveraging pre-collected datasets prior to online interaction. A key challenge, however, is learning an accurate critic in la…

Author name: Andrew Choi, Wei Xu

RankQ: Offline-to-Online Reinforcement Learning via Self-Supervised Action Ranking