3ViewSense: Spatial and Mental Perspective Reasoning from Orthographic Views in Vision-Language Models
Dit paper introduceert 3ViewSense, een raamwerk dat het ruimtelijke intelligentie-gat in Vision-Language Models dicht door ruimtelijk redeneren te grondvesten in orthografische weergaven via een 'Simuleer-en-Redeneer'-mechanisme, wat leidt tot aanzienlijk betere prestaties in complexe ruimtelijke taken zoals het tellen van blokken en het hanteren van verduistering.