Jin Xu, Camille Couturier, Victor R\"uhle, Saravan Rajmohan, James Hensman

Revisiting Transformer Layer Parameterization Through Causal Energy Minimization

Jin Xu, Camille Couturier, Victor R\"uhle, Saravan Rajmohan, James Hensman / May 11, 2026

arXiv:2605.07588v1 Announce Type: cross
Abstract: Transformer blocks typically combine multi-head attention (MHA) for token mixing with gated MLPs for token-wise feature transformation, yet many choices in their parameterization remain largely empiric…

Author name: Jin Xu, Camille Couturier, Victor R\"uhle, Saravan Rajmohan, James Hensman

Revisiting Transformer Layer Parameterization Through Causal Energy Minimization