TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings
Il paper introduce TimeSpot, un nuovo benchmark composto da 1.455 immagini reali provenienti da 80 paesi per valutare le capacità di ragionamento geo-temporale dei modelli visione-linguaggio, evidenziando che, nonostante i recenti progressi, questi modelli mostrano prestazioni ancora limitate nell'inferenza temporale e nella comprensione spaziale fisicamente fondata.