TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings
本論文は、視覚入力から現実世界の地理的・時間的推論を行うビジョン・ランゲージモデルの能力を評価するため、80 か国からの 1,455 枚の画像と構造化された予測タスクを含むベンチマーク「TimeSpot」を提案し、既存のモデルが時間的推論において依然として低い性能しか示していないことを明らかにしています。