Langlin Huang, Chengsong Huang, Jinyuan Li, Donghong Cai, Yuyi Yang, Jiaxin Huang

Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration

Langlin Huang, Chengsong Huang, Jinyuan Li, Donghong Cai, Yuyi Yang, Jiaxin Huang / May 8, 2026

arXiv:2605.05566v1 Announce Type: cross
Abstract: Reinforcement learning with verifiable rewards, particularly Group Relative Policy Optimization (GRPO), has significantly advanced the reasoning capabilities of Large Language Models (LLMs). However, i…

Author name: Langlin Huang, Chengsong Huang, Jinyuan Li, Donghong Cai, Yuyi Yang, Jiaxin Huang

Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration