OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks
Die Arbeit stellt OmniEarth vor, ein umfassendes Benchmark mit 9.275 Bildern und 44.210 Anweisungen, das zur systematischen Evaluierung von Vision-Language-Modellen in geospatialen Aufgaben unter realistischen Erdbeobachtungsszenarien dient und dabei deutliche Leistungslücken bestehender Modelle aufzeigt.