TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings
O artigo apresenta o TimeSpot, um novo benchmark com 1.455 imagens reais de 80 países para avaliar a capacidade de modelos de visão e linguagem de inferir atributos geográficos e temporais, revelando que os modelos atuais têm desempenho insuficiente nessa tarefa e destacando a necessidade de novos métodos para um entendimento geo-temporal robusto.