SGR3 Model: Scene Graph Retrieval-Reasoning Model in 3D
Die Arbeit stellt das SGR3-Modell vor, ein trainingsfreies Framework, das multimodale Large Language Models mit retrieval-augmentierter Generierung kombiniert, um semantische 3D-Szenengraphen ohne explizite 3D-Rekonstruktion zu erzeugen und dabei durch eine gewichtete Patch-Ähnlichkeitsauswahl die Robustheit der relationalen Schlussfolgerung verbessert.