TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings
Die Arbeit stellt TimeSpot vor, einen Benchmark mit 1.455 Bildern aus 80 Ländern, der zeigt, dass aktuelle Vision-Language-Modelle bei der rein visuellen Inferenz von geografischen und zeitlichen Merkmalen sowie bei der räumlich-zeitlichen Schlussfolgerung in realen Szenarien erhebliche Defizite aufweisen.