OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks
Il paper introduce OmniEarth, un benchmark completo per valutare le capacità di percezione, ragionamento e robustezza dei modelli visione-linguaggio applicati all'osservazione della Terra, evidenziando attraverso una rigorosa valutazione su 9.275 immagini e 44.210 istruzioni che le attuali soluzioni faticano ancora a gestire compiti geospaziali complessi.