Zichuan Liu, Jinyu Wang, Lei Song, Jiang Bian

Sample-efficient LLM Optimization with Reset Replay

Zichuan Liu, Jinyu Wang, Lei Song, Jiang Bian / May 8, 2026

arXiv:2508.06412v3 Announce Type: replace-cross
Abstract: Recent advancements in LLM post-training, particularly through reinforcement learning and preference optimization, are key to boosting their reasoning capabilities. However, these methods often…

Author name: Zichuan Liu, Jinyu Wang, Lei Song, Jiang Bian

Sample-efficient LLM Optimization with Reset Replay