OmniEarth-Bench: Towards Holistic Evaluation of Earth's Six Spheres and Cross-Spheres Interactions with Multimodal Observational Earth Data

OmniEarth-Bench è il primo benchmark multimodale che valuta in modo olistico le interazioni tra tutte e sei le sfere terrestri attraverso 109 compiti curati da esperti, rivelando che i modelli di linguaggio multimodale più avanzati attuali presentano gravi lacune nella comprensione dei sistemi terrestri.

Fengxiang Wang, Mingshuo Chen, Xuming He, Yi-Fan Zhang, Yueying Li, Feng Liu, Zijie Guo, Zhenghao Hu, Jiong Wang, Jingyi Xu, Zhangrui Li, Junchao Gong, Di Wang, Fenghua Ling, Ben Fei, Weijia Li, Long Lan, Wenjing Yang

Pubblicato 2026-02-17
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina che la Terra non sia solo un pianeta roccioso, ma una gigantesca orchestra sinfonica. Questa orchestra è composta da sei sezioni musicali distinte (le "sfere"):

  1. Atmosfera (l'aria e il vento).
  2. Litosfera (la roccia e i terremoti).
  3. Oceanifera (i mari e le correnti).
  4. Criosfera (i ghiacci e i poli).
  5. Biosfera (tutte le piante e gli animali).
  6. Sfera dell'Attività Umana (città, agricoltura, disastri).

Finora, gli scienziati che studiavano l'intelligenza artificiale (AI) facevano un errore: chiedevano alle AI di suonare solo un singolo strumento (ad esempio, solo il vento o solo le città) o, peggio, facevano domande molto semplici, come "C'è un albero in questa foto?".

Il Problema: Le AI sono "Analfabe" della Terra

Gli autori di questo studio hanno scoperto che le intelligenze artificiali più avanzate del mondo (come GPT-4o o Claude) sono come bambini geniali che sanno leggere, ma non capiscono la musica.
Se chiedi a un'AI: "C'è un'alluvione qui?", lei guarda la foto e risponde a caso. Se le chiedi: "Come fa la pioggia a trasformarsi in un'alluvione passando attraverso il suolo e i ghiacci?", l'AI va in tilt. Non capisce come le sei sezioni dell'orchestra interagiscano tra loro.

La Soluzione: OmniEarth-Bench

Per risolvere questo problema, il team ha creato OmniEarth-Bench.
Pensaci come a un esame di maturità supremo per le AI, ma invece di chiedere di risolvere equazioni matematiche, chiede di capire il pianeta Terra.

Ecco come è fatto questo "esame":

  • Non è un quiz a scelta multipla banale: Non chiedono "C'è un uccello?". Chiedono: "Guardando la temperatura dell'aria, l'umidità del suolo e la profondità della neve, prevedi se domani ci sarà un'alluvione in questa regione specifica".
  • È un lavoro di squadra: Per creare questo esame, non hanno usato robot. Hanno assunto 20 esperti umani (geologi, meteorologi, biologi) e 45 annotatori per creare 29.855 domande difficili. È come se avessero assunto i migliori professori di geografia del mondo per scrivere un libro di esercizi impossibile.
  • I dati sono "veri": Non usano foto di stock o disegni. Usano dati reali dai satelliti, come se l'AI dovesse guardare le telecamere di sorveglianza del pianeta in tempo reale.

Cosa è successo quando hanno fatto l'esame?

Il risultato è stato scioccante.
Hanno fatto l'esame a 9 delle AI più potenti al mondo. Il risultato? Nessuna ha superato il 35% di risposte corrette.
È come se un gruppo di studenti universitari di fisica, messi davanti a un problema di ingegneria reale, fallissero tutti miseramente.

  • Alcune AI hanno risposto "Non so" (e in realtà stavano bene, perché erano oneste!).
  • Altre hanno indovinato a caso e sbagliato tutto.
  • In alcuni casi di "interazione tra sfere" (es. come il ghiaccio che si scioglie influenza le città), le AI hanno ottenuto lo 0%.

Perché è importante?

Immagina di voler costruire una casa intelligente che ti avvisi se c'è pericolo di alluvione. Se usi un'AI che non capisce come l'acqua, il suolo e il ghiaccio lavorano insieme, la tua casa potrebbe non avvisarti mai, o avvisarti quando non serve, con conseguenze disastrose.

OmniEarth-Bench ci dice due cose fondamentali:

  1. Le AI attuali sono ancora "stupide" quando si tratta di scienza reale. Sanno riconoscere un gatto in una foto, ma non capiscono il clima.
  2. Dobbiamo cambiare strategia. Non basta rendere le AI più grandi (più "cervello"). Dobbiamo insegnar loro la "grammatica" della Terra, facendole studiare i dati reali e le interazioni complesse tra natura e uomo.

In sintesi

Questo paper è come un termometro per l'intelligenza artificiale. Ha misurato la febbre delle AI e ha scoperto che hanno la febbre alta: pensano di sapere tutto, ma in realtà non capiscono nulla di come funziona il nostro pianeta. Ora, grazie a questo "esame", gli scienziati sapranno esattamente su cosa lavorare per creare un'AI che possa davvero aiutarci a proteggere la Terra.

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →