Lehan Pan, Ziyang Tao, Ruoyu Pang, Xiao Wang, Jianjun Zhao, Yanyong Zhang

Making Every Verified Token Count: Adaptive Verification for MoE Speculative Decoding

Lehan Pan, Ziyang Tao, Ruoyu Pang, Xiao Wang, Jianjun Zhao, Yanyong Zhang / May 4, 2026

arXiv:2605.00342v1 Announce Type: new
Abstract: Tree-based speculative decoding accelerates autoregressive generation by verifying multiple draft candidates in parallel, but this advantage weakens for sparse Mixture-of-Experts (MoE) models. As the dra…

Author name: Lehan Pan, Ziyang Tao, Ruoyu Pang, Xiao Wang, Jianjun Zhao, Yanyong Zhang

Making Every Verified Token Count: Adaptive Verification for MoE Speculative Decoding