Aadyot Bhatnagar, Peter M{\o}rch Groth, Ali Madani

Pareto-Optimal Offline Reinforcement Learning via Smooth Tchebysheff Scalarization

Aadyot Bhatnagar, Peter M{\o}rch Groth, Ali Madani / April 16, 2026

arXiv:2604.13175v1 Announce Type: cross
Abstract: Large language models can be aligned with human preferences through offline reinforcement learning (RL) on small labeled datasets. While single-objective alignment is well-studied, many real-world appl…

Author name: Aadyot Bhatnagar, Peter M{\o}rch Groth, Ali Madani

Pareto-Optimal Offline Reinforcement Learning via Smooth Tchebysheff Scalarization