Chen Huang, Xianhang Li, Vimal Thilak, Etai Littwin, Josh Susskind

Text-Conditional JEPA for Learning Semantically Rich Visual Representations

Chen Huang, Xianhang Li, Vimal Thilak, Etai Littwin, Josh Susskind / May 6, 2026

arXiv:2605.03245v1 Announce Type: new
Abstract: Image-based Joint-Embedding Predictive Architecture (I-JEPA) offers a promising approach to visual self-supervised learning through masked feature prediction. However with the inherent visual uncertainty…

Author name: Chen Huang, Xianhang Li, Vimal Thilak, Etai Littwin, Josh Susskind

Text-Conditional JEPA for Learning Semantically Rich Visual Representations