Nan Zhou, Huiqun Wang, Yaoyan Zheng, Di Huang

CoVFT: Context-aware Visual Fine-tuning for Multimodal Large Language Models

Nan Zhou, Huiqun Wang, Yaoyan Zheng, Di Huang / March 30, 2026

arXiv:2603.21077v2 Announce Type: replace
Abstract: Multimodal large language models (MLLMs) achieve remarkable progress in cross-modal perception and reasoning, yet a fundamental question remains unresolved: should the vision encoder be fine-tuned or…

Author name: Nan Zhou, Huiqun Wang, Yaoyan Zheng, Di Huang

CoVFT: Context-aware Visual Fine-tuning for Multimodal Large Language Models