SGG-R: From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation
El paper presenta SGG-R³, un marco de razonamiento estructurado que combina ajuste fino supervisado con aprendizaje por refuerzo y optimización de políticas de secuencia grupal para generar gráficos de escena completos y sin sesgos, abordando eficazmente la dispersión de relaciones y las distribuciones de cola larga mediante estrategias de aumento de relaciones y un esquema de recompensa de doble granularidad.