Yujun Li, Hongyuan Zhang, Yuan Yuan

GRPO-TTA: Test-Time Visual Tuning for Vision-Language Models via GRPO-Driven Reinforcement Learning

Yujun Li, Hongyuan Zhang, Yuan Yuan / May 6, 2026

arXiv:2605.03403v1 Announce Type: cross
Abstract: Group Relative Policy Optimization (GRPO) has recently shown strong performance in post-training large language models and vision-language models. It raises a question of whether the GRPO also signific…

Author name: Yujun Li, Hongyuan Zhang, Yuan Yuan

GRPO-TTA: Test-Time Visual Tuning for Vision-Language Models via GRPO-Driven Reinforcement Learning