OmniEarth-Bench: Towards Holistic Evaluation of Earth's Six Spheres and Cross-Spheres Interactions with Multimodal Observational Earth Data

OmniEarth-Bench is de eerste multimodale benchmark die alle zes aardse sferen en hun interacties systematisch evalueert via 109 expert-gecureerde taken, waarbij tests op state-of-the-art modellen onthullen dat deze aanzienlijke lacunes vertonen in hun cognitieve vermogen om het aardse systeem te begrijpen.

Fengxiang Wang, Mingshuo Chen, Xuming He, Yi-Fan Zhang, Yueying Li, Feng Liu, Zijie Guo, Zhenghao Hu, Jiong Wang, Jingyi Xu, Zhangrui Li, Junchao Gong, Di Wang, Fenghua Ling, Ben Fei, Weijia Li, Long Lan, Wenjing Yang

Gepubliceerd 2026-02-17
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat de Aarde een gigantisch, complex huis is. Dit huis heeft zes verschillende verdiepingen: de lucht (atmosfeer), de grond (lithosfeer), de oceanen, het ijs (cryosfeer), het leven (biosfeer) en de menselijke wereld. Vaak werken deze verdiepingen samen; als het regent (lucht), wordt de grond verzadigd (grond), wat kan leiden tot overstromingen die huizen vernietigen (menselijke wereld).

Vroeger keken kunstmatige intelligentie (AI) alleen naar één verdieping tegelijk, of ze keken alleen naar de menselijke wereld. Ze wisten niet hoe ze het hele huis moesten begrijpen.

OmniEarth-Bench is de eerste "grote toets" die AI-systemen op alle zes verdiepingen én hun onderlinge samenwerking test. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De "Masterchef"-toets voor AI

Stel je voor dat je een kok wilt testen. Je kunt hem vragen om een ei te bakken (dat is makkelijk), maar OmniEarth-Bench vraagt hem om een compleet diner te bereiden waarbij hij rekening moet houden met de temperatuur in de keuken, de versheid van de vis uit de zee, en de smaakvoorkeuren van de gasten.

  • De uitdaging: De data komt uit 33 verschillende bronnen (zoals satellietbeelden, seismische trillingen en weerkaarten). Het is alsof je de kok moet vragen om te koken terwijl hij blind is, maar wel een boekje met weerberichten en een kaart van de oceaan in zijn hand heeft.
  • De experts: Om deze toets te maken, hebben 20 echte wetenschappers (de "masterchefs" van de aardwetenschappen) samen gewerkt met 45 mensen om de vragen te maken. Ze hebben gekeken of de vragen echt zinvol zijn voor de echte wereld, niet alleen voor een schooltest.

2. Waarom is dit zo moeilijk voor AI?

De onderzoekers hebben 9 van de slimste AI-modellen ter wereld (zoals GPT-4o en Claude) deze toets laten maken. Het resultaat? Ze zakten allemaal.

  • De score: Geen enkel model haalde 35% goed. Dat is alsof je een student laat examen doen en hij krijgt een 3,5.
  • De reden: De AI's zijn geweldig in het herkennen van een kat op een foto of het beantwoorden van algemene vragen. Maar als ze moeten zeggen: "Als de wind uit het westen komt, de bodem verzadigd is en de sneeuw smelt, gaat het dan vloeien?", dan raken ze in de war. Ze missen de diepe, wetenschappelijke logica die nodig is om deze verschillende delen van de Aarde met elkaar te verbinden.

3. De vier niveaus van de toets

De toets is opgebouwd als een trap van moeilijkheidsgraad:

  1. Kijken (Perceptie): "Zie je een storm?" (Dit kunnen de AI's vaak nog wel).
  2. Redeneren (Algemeen): "De storm trekt naar het noorden." (Dit lukt nog redelijk).
  3. Wetenschap (Expertkennis): "Wat betekent deze specifieke temperatuur voor de ijskap?" (Hier beginnen de AI's te struikelen).
  4. Kettingredeneren (CoT): "Stap 1: De temperatuur stijgt. Stap 2: Het ijs smelt. Stap 3: Het waterpeil stijgt. Conclusie: Er is overstromingsgevaar." (Dit is waar de meeste AI's volledig vastlopen).

4. Wat betekent dit voor de toekomst?

Deze studie is als een wake-up call. Het zegt: "Hé, onze slimme robots zijn nog niet klaar om de Aarde echt te begrijpen."

Het is alsof we een auto hebben die perfect kan rijden op een lege weg (algemene AI), maar als we hem op een bergweg met sneeuw, modder en mist zetten (de echte Aarde), raakt hij de weg kwijt.

De boodschap: Om AI echt nuttig te maken voor het redden van mensen bij overstromingen, het voorspellen van aardbevingen of het beschermen van het klimaat, moeten we hen niet alleen slimmer maken, maar ze ook specifiek leren over de Aarde. We moeten ze niet alleen meer "brein" geven, maar ook meer "kennis" over hoe onze planeet werkt.

OmniEarth-Bench is nu de landkaart die wetenschappers gebruiken om te zien waar de AI's nog moeten studeren, zodat ze in de toekomst wel klaar zijn voor de echte wereld.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →