Jiaye Feng, Qixiang Yin, Yuankun Liu, Tong Mo, Weiping Li

SGG-R$^{\rm 3}$: From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation

Jiaye Feng, Qixiang Yin, Yuankun Liu, Tong Mo, Weiping Li / April 24, 2026

arXiv:2603.07961v3 Announce Type: replace
Abstract: Scene Graph Generation (SGG) structures visual scenes as graphs of objects and their relations. While Multimodal Large Language Models (MLLMs) have advanced end-to-end SGG, current methods are hinder…

Author name: Jiaye Feng, Qixiang Yin, Yuankun Liu, Tong Mo, Weiping Li

SGG-R$^{\rm 3}$: From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation