SceneCOT: Eliciting Grounded Chain-of-Thought Reasoning in 3D Scenes
Questo lavoro presenta SceneCOT, un nuovo framework che introduce il ragionamento a catena di pensiero (CoT) ancorato per i modelli linguistici su scene 3D, supportato dal primo dataset su larga scala specifico (SceneCOT-185K), ottenendo risultati superiori nel question answering con un ragionamento passo-passo simile a quello umano.