SGG-R: From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation
Die Arbeit stellt SGG-R³ vor, ein Framework, das durch eine Kombination aus chain-of-thought-gesteuertem Fine-Tuning mit Relationen-Augmentierung und einem neuartigen dualgranularen Belohnungsmechanismus im Reinforcement Learning eine end-to-end unvoreingenommene Szenengraph-Generierung mit verbesserter Abdeckung seltener Relationen ermöglicht.