Wentao Guo, Mayank Mishra, Xinle Cheng, Ion Stoica, Tri Dao

SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations

Wentao Guo, Mayank Mishra, Xinle Cheng, Ion Stoica, Tri Dao / March 30, 2026

arXiv:2512.14080v2 Announce Type: replace-cross
Abstract: Mixture of Experts (MoE) models have emerged as the de facto architecture for scaling up language models without significantly increasing the computational cost. Recent MoE models demonstrate a…

Author name: Wentao Guo, Mayank Mishra, Xinle Cheng, Ion Stoica, Tri Dao

SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations