SGG-R: From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation
Dit paper introduceert SGG-R³, een gestructureerd redeneringskader dat chain-of-thought-gestuurde supervisie en versterkende leer met een groepssequenti-beleid optimalisatie combineert om onbevooroordeelde en complete scene graph generation te realiseren door de uitdagingen van relationele sparsiteit en lange-staartverdelingen aan te pakken.