Zekun Qian, Ruize Han, Wei Feng

BoxTuning: Directly Injecting the Object Box for Multimodal Model Fine-Tuning

Zekun Qian, Ruize Han, Wei Feng / April 14, 2026

arXiv:2604.11136v1 Announce Type: cross
Abstract: Object-level spatial-temporal understanding is essential for video question answering, yet existing multimodal large language models (MLLMs) encode frames holistically and lack explicit mechanisms for …

Author name: Zekun Qian, Ruize Han, Wei Feng

BoxTuning: Directly Injecting the Object Box for Multimodal Model Fine-Tuning