SGG-R: From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation
Ce papier présente SGG-R³, un cadre de raisonnement structuré combinant un ajustement fin supervisé avec augmentation des relations et un apprentissage par renforcement optimisé par GSPO, conçu pour générer des graphes de scènes complets et non biaisés en surmontant les problèmes de distribution à longue traîne et de raisonnement insuffisant des modèles actuels.