Ryan Lee, Jacob Biloki, Edward J. Hu, Jonathan May

Sparse Layers are Critical to Scaling Looped Language Models

Ryan Lee, Jacob Biloki, Edward J. Hu, Jonathan May / May 12, 2026

arXiv:2605.09165v1 Announce Type: new
Abstract: Looped language models repeat a set of transformer layers through depth, reducing memory costs and providing natural early-exit points at loop boundaries. However, looped models do not scale as favorably…

Author name: Ryan Lee, Jacob Biloki, Edward J. Hu, Jonathan May

Sparse Layers are Critical to Scaling Looped Language Models