Zhipeng Chen, Tao Qian, Wayne Xin Zhao, Ji-Rong Wen

Low-rank Optimization Trajectories Modeling for LLM RLVR Acceleration

Zhipeng Chen, Tao Qian, Wayne Xin Zhao, Ji-Rong Wen / April 14, 2026

arXiv:2604.11446v1 Announce Type: cross
Abstract: Recently, scaling reinforcement learning with verifiable rewards (RLVR) for large language models (LLMs) has emerged as an effective training paradigm for significantly improving model capabilities, wh…

Author name: Zhipeng Chen, Tao Qian, Wayne Xin Zhao, Ji-Rong Wen

Low-rank Optimization Trajectories Modeling for LLM RLVR Acceleration