Guanfang Dong, Luke Schultz, Negar Hassanpour, Chao Gao

RePack then Refine: Efficient Diffusion Transformer with Vision Foundation Model

Guanfang Dong, Luke Schultz, Negar Hassanpour, Chao Gao / May 15, 2026

arXiv:2512.12083v3 Announce Type: replace
Abstract: Semantic-rich features from Vision Foundation Models (VFMs) have been leveraged to enhance Latent Diffusion Models (LDMs). However, raw VFM features are typically high-dimensional and redundant, incr…

Author name: Guanfang Dong, Luke Schultz, Negar Hassanpour, Chao Gao

RePack then Refine: Efficient Diffusion Transformer with Vision Foundation Model