SGG-R: From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation
O artigo apresenta o SGG-R³, um framework de raciocínio estruturado que combina ajuste fino supervisionado com aumento de relações e aprendizado por reforço com otimização de política de sequência em grupo, para gerar gráficos de cena completos e não enviesados, superando os desafios de distribuição de cauda longa e esparsidade de relações.