Yujia Chen, Yang Ye, Xiao Chu, Yuchi Ma, Cuiyun Gao

Schedule-and-Calibrate: Utility-Guided Multi-Task Reinforcement Learning for Code LLMs

Yujia Chen, Yang Ye, Xiao Chu, Yuchi Ma, Cuiyun Gao / May 8, 2026

arXiv:2605.06111v1 Announce Type: cross
Abstract: Reinforcement learning (RL) with verifiable rewards has proven effective at post-training LLMs for coding, yet deploying separate task-specific specialists incurs costs that scale with the number of ta…

Author name: Yujia Chen, Yang Ye, Xiao Chu, Yuchi Ma, Cuiyun Gao

Schedule-and-Calibrate: Utility-Guided Multi-Task Reinforcement Learning for Code LLMs