TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings
Le papier présente TimeSpot, un nouveau benchmark évaluant la capacité des modèles vision-langage à déduire des attributs géographiques et temporels à partir d'images réelles, révélant ainsi des lacunes significatives dans leur raisonnement spatio-temporel physique.