JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments
Il paper presenta JAEGER, un framework che estende i modelli linguistici audio-visivi alla percezione 3D integrando osservazioni RGB-D e ambisonics multicanale con una nuova rappresentazione audio vettoriale neurale, validato sul benchmark SpatialSceneQA per migliorare il grounding spaziale e il ragionamento in ambienti fisici complessi.