SGR3 Model: Scene Graph Retrieval-Reasoning Model in 3D
Questo lavoro presenta il modello SGR3, un framework senza addestramento che utilizza modelli linguistici multimodali potenziati dal retrieval per generare scene graph 3D senza necessità di ricostruzione esplicita, ottenendo prestazioni competitive rispetto ai modelli basati su GNN.