Francesco D'Angelo, Nicolas Flammarion

Transformers Learn Latent Mixture Models In-Context via Mirror Descent

Francesco D'Angelo, Nicolas Flammarion / April 14, 2026

arXiv:2604.10848v1 Announce Type: new
Abstract: Sequence modelling requires determining which past tokens are causally relevant from the context and their importance: a process inherent to the attention layers in transformers, yet whose underlying lea…

Author name: Francesco D'Angelo, Nicolas Flammarion

Transformers Learn Latent Mixture Models In-Context via Mirror Descent