Wenjie Yang, Mao Zheng, Mingyang Song, Zheng Li, Sitong Wang

SSR-Zero: Simple Self-Rewarding Reinforcement Learning for Machine Translation

Wenjie Yang, Mao Zheng, Mingyang Song, Zheng Li, Sitong Wang / April 28, 2026

arXiv:2505.16637v4 Announce Type: replace
Abstract: Large language models (LLMs) have recently demonstrated remarkable capabilities in machine translation (MT). However, most advanced MT-specific LLMs heavily rely on external supervision signals durin…

Author name: Wenjie Yang, Mao Zheng, Mingyang Song, Zheng Li, Sitong Wang

SSR-Zero: Simple Self-Rewarding Reinforcement Learning for Machine Translation