Akira Takahashi, Shusuke Takahashi, Yuki Mitsufuji

MMAudioSep: Taming Video-to-Audio Generative Model Towards Video/Text-Queried Sound Separation

Akira Takahashi, Shusuke Takahashi, Yuki Mitsufuji / April 20, 2026

arXiv:2510.09065v2 Announce Type: replace-cross
Abstract: We introduce MMAudioSep, a generative model for video/text-queried sound separation that is founded on a pretrained video-to-audio model. By leveraging knowledge about the relationship between …

Author name: Akira Takahashi, Shusuke Takahashi, Yuki Mitsufuji

MMAudioSep: Taming Video-to-Audio Generative Model Towards Video/Text-Queried Sound Separation