Weijie Zhao, Mingquan Liu, Bolun Wang, Simo Wu, Nuobei Xie, Rui-Jie Zhu, Peng Zhou

Nexusformer: Nonlinear Attention Expansion for Stable and Inheritable Transformer Scaling

Weijie Zhao, Mingquan Liu, Bolun Wang, Simo Wu, Nuobei Xie, Rui-Jie Zhu, Peng Zhou / April 22, 2026

arXiv:2604.19147v1 Announce Type: new
Abstract: Scaling Transformers typically necessitates training larger models from scratch, as standard architectures struggle to expand without discarding learned representations. We identify the primary bottlenec…

Author name: Weijie Zhao, Mingquan Liu, Bolun Wang, Simo Wu, Nuobei Xie, Rui-Jie Zhu, Peng Zhou

Nexusformer: Nonlinear Attention Expansion for Stable and Inheritable Transformer Scaling