SGG-R: From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation
Il paper presenta SGG-R, un framework di ragionamento strutturato che combina fine-tuning supervisionato guidato dal chain-of-thought e apprendimento per rinforzo con ottimizzazione della politica di sequenza di gruppo per generare scene graph end-to-end privi di bias, affrontando efficacemente le sfide della distribuzione a coda lunga e della scarsità delle relazioni.