William Hoy, Binxu Wang, Xu Pan

Matching Accuracy, Different Geometry: Evolution Strategies vs GRPO in LLM Post-Training

William Hoy, Binxu Wang, Xu Pan / April 3, 2026

arXiv:2604.01499v1 Announce Type: new
Abstract: Evolution Strategies (ES) have emerged as a scalable gradient-free alternative to reinforcement learning based LLM fine-tuning, but it remains unclear whether comparable task performance implies comparab…

Author name: William Hoy, Binxu Wang, Xu Pan

Matching Accuracy, Different Geometry: Evolution Strategies vs GRPO in LLM Post-Training