Udita Ghosh, Dripta S. Raychaudhuri, Jiachen Li, Konstantinos Karydis, Amit Roy-Chowdhury

Reducing Oracle Feedback with Vision-Language Embeddings for Preference-Based RL

Udita Ghosh, Dripta S. Raychaudhuri, Jiachen Li, Konstantinos Karydis, Amit Roy-Chowdhury / March 31, 2026

arXiv:2603.28053v1 Announce Type: new
Abstract: Preference-based reinforcement learning can learn effective reward functions from comparisons, but its scalability is constrained by the high cost of oracle feedback. Lightweight vision-language embeddin…

Author name: Udita Ghosh, Dripta S. Raychaudhuri, Jiachen Li, Konstantinos Karydis, Amit Roy-Chowdhury

Reducing Oracle Feedback with Vision-Language Embeddings for Preference-Based RL