Clayton Fields, Casey Kennington

ESsEN: Training Compact Discriminative Vision-Language Transformers in a Low-Resource Setting

Clayton Fields, Casey Kennington / April 21, 2026

arXiv:2604.18452v1 Announce Type: new
Abstract: Vision-language modeling is rapidly increasing in popularity with an ever expanding list of available models. In most cases, these vision-language models have parameters in the tens of billions, which is…

Author name: Clayton Fields, Casey Kennington

ESsEN: Training Compact Discriminative Vision-Language Transformers in a Low-Resource Setting