Zhishen Sun, Sizhe Dang, Guang Dai, Haishan Ye

ESSAM: A Novel Competitive Evolution Strategies Approach to Reinforcement Learning for Memory Efficient LLMs Fine-Tuning

Zhishen Sun, Sizhe Dang, Guang Dai, Haishan Ye / May 11, 2026

arXiv:2602.01003v2 Announce Type: replace-cross
Abstract: Reinforcement learning (RL) has become a key training step for improving mathematical reasoning in large language models (LLMs), but it often has high GPU memory usage, which makes it hard to u…

Author name: Zhishen Sun, Sizhe Dang, Guang Dai, Haishan Ye

ESSAM: A Novel Competitive Evolution Strategies Approach to Reinforcement Learning for Memory Efficient LLMs Fine-Tuning