Zhichao Wang - Provide.ai

GIFT: Group-Relative Implicit Fine-Tuning Integrates GRPO with DPO and UNA

Zhichao Wang / April 9, 2026

arXiv:2510.23868v4 Announce Type: replace
Abstract: This paper proposes \textit{Group-relative Implicit Fine-Tuning (GIFT)}, a reinforcement learning framework for aligning large language models (LLMs) that unifies on-policy optimization with implicit…

Author name: Zhichao Wang

GIFT: Group-Relative Implicit Fine-Tuning Integrates GRPO with DPO and UNA