OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks
O artigo apresenta o OmniEarth, um novo benchmark abrangente para avaliar modelos de visão e linguagem em tarefas de observação da Terra, que organiza 28 tarefas em dimensões de percepção, raciocínio e robustez utilizando dados de satélite e instruções verificadas para revelar as limitações atuais desses modelos em cenários geoespaciais complexos.