Haoran Xu, Kaiwen Hu, Somayeh Sojoudi, Amy Zhang

Reinforcement Learning via Value Gradient Flow

Haoran Xu, Kaiwen Hu, Somayeh Sojoudi, Amy Zhang / April 17, 2026

arXiv:2604.14265v1 Announce Type: new
Abstract: We study behavior-regularized reinforcement learning (RL), where regularization toward a reference distribution (the dataset in offline RL or the base model in LLM RL finetuning) is essential to prevent …

Author name: Haoran Xu, Kaiwen Hu, Somayeh Sojoudi, Amy Zhang

Reinforcement Learning via Value Gradient Flow