Author name: Bo Li, Chuan Wu, shaolin Zhu

MACS: Modality-Aware Capacity Scaling for Efficient Multimodal MoE Inference

Bo Li, Chuan Wu, shaolin Zhu / May 11, 2026

arXiv:2605.05225v2 Announce Type: replace-cross
Abstract: Mixture-of-Experts Multimodal Large Language Models (MoE MLLMs) suffer from a significant efficiency bottleneck during Expert Parallelism (EP) inference due to the straggler effect. This issue …

cs.AI, cs.LG

MACS: Modality-Aware Capacity Scaling for Efficient Multimodal MoE Inference

Bo Li, Chuan Wu, shaolin Zhu / May 8, 2026

arXiv:2605.05225v1 Announce Type: cross
Abstract: Mixture-of-Experts Multimodal Large Language Models (MoE MLLMs) suffer from a significant efficiency bottleneck during Expert Parallelism (EP) inference due to the straggler effect. This issue is worse…