Sajal Dash, Feiyi Wang

Piper: Efficient Large-Scale MoE Training via Resource Modeling and Pipelined Hybrid Parallelism

Sajal Dash, Feiyi Wang / May 7, 2026

arXiv:2605.05049v1 Announce Type: cross
Abstract: Frontier models increasingly adopt Mixture-of-Experts (MoE) architectures to achieve large-model performance at reduced cost. However, training MoE models on HPC platforms is hindered by large memory f…

Author name: Sajal Dash, Feiyi Wang

Piper: Efficient Large-Scale MoE Training via Resource Modeling and Pipelined Hybrid Parallelism