SGR3 Model: Scene Graph Retrieval-Reasoning Model in 3D
Le modèle SGR3 propose un cadre sans entraînement pour la génération de graphes de scènes 3D en combinant des modèles de langage multimodaux avec une génération augmentée par la récupération (RAG) et une sélection de similarité au niveau des patches, permettant ainsi un raisonnement relationnel robuste sans reconstruction 3D explicite.