Guillaume Corlouer, Avi Semler, Alexander Strang, Alexander Gietelink Oldenziel

Stochastic Gradient Descent in the Saddle-to-Saddle Regime of Deep Linear Networks

Guillaume Corlouer, Avi Semler, Alexander Strang, Alexander Gietelink Oldenziel / April 9, 2026

arXiv:2604.06366v1 Announce Type: cross
Abstract: Deep linear networks (DLNs) are used as an analytically tractable model of the training dynamics of deep neural networks. While gradient descent in DLNs is known to exhibit saddle-to-saddle dynamics, t…

Author name: Guillaume Corlouer, Avi Semler, Alexander Strang, Alexander Gietelink Oldenziel

Stochastic Gradient Descent in the Saddle-to-Saddle Regime of Deep Linear Networks