Can Vision-Language Models See Squares? Text-Recognition Mediates Spatial Reasoning Across Three Model Families
Lo studio dimostra che i modelli visione-linguaggio falliscono nel localizzare accuratamente celle riempite in griglie binarie prive di testo, rivelando che la loro capacità di ragionamento spaziale dipende criticamente da un percorso di riconoscimento testuale che supera di gran lunga le loro abilità visive native.