Video2Layout: Recall and Reconstruct Metric-Grounded Cognitive Map for Spatial Reasoning
Il paper presenta Video2Layout, un framework che supera i limiti delle mappe cognitive a griglia ricostruendo layout spaziali metrici basati su coordinate continue dei bordi degli oggetti, migliorando significativamente il ragionamento spaziale nei modelli multimodali.