OmniEarth-Bench: Towards Holistic Evaluation of Earth's Six Spheres and Cross-Spheres Interactions with Multimodal Observational Earth Data

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat de Aarde een gigantisch, complex huis is. Dit huis heeft zes verschillende verdiepingen: de lucht (atmosfeer), de grond (lithosfeer), de oceanen, het ijs (cryosfeer), het leven (biosfeer) en de menselijke wereld. Vaak werken deze verdiepingen samen; als het regent (lucht), wordt de grond verzadigd (grond), wat kan leiden tot overstromingen die huizen vernietigen (menselijke wereld).

Vroeger keken kunstmatige intelligentie (AI) alleen naar één verdieping tegelijk, of ze keken alleen naar de menselijke wereld. Ze wisten niet hoe ze het hele huis moesten begrijpen.

OmniEarth-Bench is de eerste "grote toets" die AI-systemen op alle zes verdiepingen én hun onderlinge samenwerking test. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De "Masterchef"-toets voor AI

Stel je voor dat je een kok wilt testen. Je kunt hem vragen om een ei te bakken (dat is makkelijk), maar OmniEarth-Bench vraagt hem om een compleet diner te bereiden waarbij hij rekening moet houden met de temperatuur in de keuken, de versheid van de vis uit de zee, en de smaakvoorkeuren van de gasten.

De uitdaging: De data komt uit 33 verschillende bronnen (zoals satellietbeelden, seismische trillingen en weerkaarten). Het is alsof je de kok moet vragen om te koken terwijl hij blind is, maar wel een boekje met weerberichten en een kaart van de oceaan in zijn hand heeft.
De experts: Om deze toets te maken, hebben 20 echte wetenschappers (de "masterchefs" van de aardwetenschappen) samen gewerkt met 45 mensen om de vragen te maken. Ze hebben gekeken of de vragen echt zinvol zijn voor de echte wereld, niet alleen voor een schooltest.

2. Waarom is dit zo moeilijk voor AI?

De onderzoekers hebben 9 van de slimste AI-modellen ter wereld (zoals GPT-4o en Claude) deze toets laten maken. Het resultaat? Ze zakten allemaal.

De score: Geen enkel model haalde 35% goed. Dat is alsof je een student laat examen doen en hij krijgt een 3,5.
De reden: De AI's zijn geweldig in het herkennen van een kat op een foto of het beantwoorden van algemene vragen. Maar als ze moeten zeggen: "Als de wind uit het westen komt, de bodem verzadigd is en de sneeuw smelt, gaat het dan vloeien?", dan raken ze in de war. Ze missen de diepe, wetenschappelijke logica die nodig is om deze verschillende delen van de Aarde met elkaar te verbinden.

3. De vier niveaus van de toets

De toets is opgebouwd als een trap van moeilijkheidsgraad:

Kijken (Perceptie): "Zie je een storm?" (Dit kunnen de AI's vaak nog wel).
Redeneren (Algemeen): "De storm trekt naar het noorden." (Dit lukt nog redelijk).
Wetenschap (Expertkennis): "Wat betekent deze specifieke temperatuur voor de ijskap?" (Hier beginnen de AI's te struikelen).
Kettingredeneren (CoT): "Stap 1: De temperatuur stijgt. Stap 2: Het ijs smelt. Stap 3: Het waterpeil stijgt. Conclusie: Er is overstromingsgevaar." (Dit is waar de meeste AI's volledig vastlopen).

4. Wat betekent dit voor de toekomst?

Deze studie is als een wake-up call. Het zegt: "Hé, onze slimme robots zijn nog niet klaar om de Aarde echt te begrijpen."

Het is alsof we een auto hebben die perfect kan rijden op een lege weg (algemene AI), maar als we hem op een bergweg met sneeuw, modder en mist zetten (de echte Aarde), raakt hij de weg kwijt.

De boodschap: Om AI echt nuttig te maken voor het redden van mensen bij overstromingen, het voorspellen van aardbevingen of het beschermen van het klimaat, moeten we hen niet alleen slimmer maken, maar ze ook specifiek leren over de Aarde. We moeten ze niet alleen meer "brein" geven, maar ook meer "kennis" over hoe onze planeet werkt.

OmniEarth-Bench is nu de landkaart die wetenschappers gebruiken om te zien waar de AI's nog moeten studeren, zodat ze in de toekomst wel klaar zijn voor de echte wereld.

OmniEarth-Bench: Towards Holistic Evaluation of Earth's Six Spheres and Cross-Spheres Interactions with Multimodal Observational Earth Data

1. De "Masterchef"-toets voor AI

2. Waarom is dit zo moeilijk voor AI?

3. De vier niveaus van de toets

4. Wat betekent dit voor de toekomst?

Probleemstelling

Methodologie: OmniEarth-Bench

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

OmniEarth-Bench: Towards Holistic Evaluation of Earth's Six Spheres and Cross-Spheres Interactions with Multimodal Observational Earth Data

1. De "Masterchef"-toets voor AI

2. Waarom is dit zo moeilijk voor AI?

3. De vier niveaus van de toets

4. Wat betekent dit voor de toekomst?

Probleemstelling

Methodologie: OmniEarth-Bench

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

GNN-as-Judge: Unleashing the Power of LLMs for Graph Learning with GNN Feedback

Memory-Guided Trust-Region Bayesian Optimization (MG-TuRBO) for High Dimensions

QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation

Robust Reasoning Benchmark

Ranked Activation Shift for Post-Hoc Out-of-Distribution Detection