OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models
Il paper introduce OmniSpatial, un benchmark completo basato sulla psicologia cognitiva con oltre 8.400 coppie di domande e risposte per valutare le capacità di ragionamento spaziale avanzato dei modelli visione-linguaggio, evidenziando le loro attuali limitazioni e proponendo strategie come PointGraph e SpatialCoT per migliorarle.