Yiming Ren, Yujiu Yang, Junjie Wang

Mitigating the Reasoning Tax in Vision-Language Fine-Tuning with Input-Adaptive Depth Aggregation

Yiming Ren, Yujiu Yang, Junjie Wang / March 30, 2026

arXiv:2603.26330v1 Announce Type: new
Abstract: Supervised fine-tuning (SFT) on visual instruction data often improves perceptual capabilities in vision-language models (VLMs) while degrading reasoning performance, creating a persistent reasoning tax …

Author name: Yiming Ren, Yujiu Yang, Junjie Wang

Mitigating the Reasoning Tax in Vision-Language Fine-Tuning with Input-Adaptive Depth Aggregation