Mingqian Ji, Shanshan Zhang, Jian Yang

Revisiting Token Compression for Accelerating ViT-based Sparse Multi-View 3D Object Detectors

Mingqian Ji, Shanshan Zhang, Jian Yang / April 17, 2026

arXiv:2604.14563v1 Announce Type: new
Abstract: Vision Transformer (ViT)-based sparse multi-view 3D object detectors have achieved remarkable accuracy but still suffer from high inference latency due to heavy token processing. To accelerate these mode…

Author name: Mingqian Ji, Shanshan Zhang, Jian Yang

Revisiting Token Compression for Accelerating ViT-based Sparse Multi-View 3D Object Detectors