Ernesto Garcia-Estrada, Carlos Escolano, Jos\'e A. R. Fonallosa

Reference-Free Reinforcement Learning Fine-Tuning for MT: A Seq2Seq Perspective

Ernesto Garcia-Estrada, Carlos Escolano, Jos\'e A. R. Fonallosa / May 18, 2026

arXiv:2605.15976v1 Announce Type: new
Abstract: Production machine translation relies overwhelmingly on encoder-decoder Seq2Seq models, yet reinforcement learning approaches to MT fine-tuning have largely targeted decoder-only LLMs at $\geq$7B paramet…

Author name: Ernesto Garcia-Estrada, Carlos Escolano, Jos\'e A. R. Fonallosa

Reference-Free Reinforcement Learning Fine-Tuning for MT: A Seq2Seq Perspective