Xuexiang Wen, Hang Yu, Linchao Zhu, Gaoang Wang

Verifier-Free RL for LLMs via Intrinsic Gradient-Norm Reward

Xuexiang Wen, Hang Yu, Linchao Zhu, Gaoang Wang / May 12, 2026

arXiv:2605.09920v1 Announce Type: cross
Abstract: While Reinforcement Learning with Verifiable Rewards (RLVR) has recently emerged as a promising post-training paradigm for Large Language Models (LLMs), its dependency on the gold label or domain-speci…

Author name: Xuexiang Wen, Hang Yu, Linchao Zhu, Gaoang Wang

Verifier-Free RL for LLMs via Intrinsic Gradient-Norm Reward