Xubin Zhou, Yipeng Yang, Zhan Li

Truncated Rectified Flow Policy for Reinforcement Learning with One-Step Sampling

Xubin Zhou, Yipeng Yang, Zhan Li / April 13, 2026

arXiv:2604.09159v1 Announce Type: new
Abstract: Maximum entropy reinforcement learning (MaxEnt RL) has become a standard framework for sequential decision making, yet its standard Gaussian policy parameterization is inherently unimodal, limiting its a…

Author name: Xubin Zhou, Yipeng Yang, Zhan Li

Truncated Rectified Flow Policy for Reinforcement Learning with One-Step Sampling