Jiashu Yao, Heyan Huang, Zeming Liu, Yuhang Guo

Utilizing and Calibrating Hindsight Process Rewards via Reinforcement with Mutual Information Self-Evaluation

Jiashu Yao, Heyan Huang, Zeming Liu, Yuhang Guo / April 14, 2026

arXiv:2604.11611v1 Announce Type: new
Abstract: To overcome the sparse reward challenge in reinforcement learning (RL) for agents based on large language models (LLMs), we propose Mutual Information Self-Evaluation (MISE), an RL paradigm that utilizes…

Author name: Jiashu Yao, Heyan Huang, Zeming Liu, Yuhang Guo

Utilizing and Calibrating Hindsight Process Rewards via Reinforcement with Mutual Information Self-Evaluation