OmniEarth-Bench: Towards Holistic Evaluation of Earth's Six Spheres and Cross-Spheres Interactions with Multimodal Observational Earth Data

既存の地球科学分野のマルチモーダル学習ベンチマークが抱える課題を克服し、大気・岩石・海洋・氷・生物・人間活動の 6 つの圏域とそれらの相互作用を網羅的に評価する初のマルチモーダルベンチマーク「OmniEarth-Bench」を提案し、最先端モデルでも地球システム認知能力に大きな課題があることを実証しました。

Fengxiang Wang, Mingshuo Chen, Xuming He, Yi-Fan Zhang, Yueying Li, Feng Liu, Zijie Guo, Zhenghao Hu, Jiong Wang, Jingyi Xu, Zhangrui Li, Junchao Gong, Di Wang, Fenghua Ling, Ben Fei, Weijia Li, Long Lan, Wenjing Yang

公開日 2026-02-17
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「OmniEarth-Bench(オムニアース・ベンチ)」**という、地球科学のための新しい「テスト問題集」を紹介するものです。

これを一言で言うと、**「AI に『地球の全貌』を理解しているかどうかを、専門家レベルの難問で試すための、世界初の総合試験」**です。

以下に、難しい専門用語を避け、日常の例え話を使ってわかりやすく解説します。


1. 従来のテストは「偏食」だった

これまでの AI(特に画像を見て言葉を話す AI)のテストは、地球科学の分野では**「偏食」**でした。

  • 人間活動(都市や建物)や大気(天気)のことしか聞かれませんでした。
  • 例えば、「この建物は壊れているか?」や「この雲は雨を降らせるか?」といった、部分的な質問が中心でした。

しかし、地球はもっと複雑です。大気、海、氷、岩、生き物、そして人間活動が、すべて絡み合っています。

  • 例え話: 洪水を予測するには、「雨(大気)」だけでなく、「土の水分(地殻)」や「川の流れ(水圏)」、そして「雪の溶け方(氷圏)」をすべて同時に考えなければなりません。
  • 従来のテストは、この「すべてを繋げて考える力」を測れていませんでした。

2. OmniEarth-Bench:地球の「6 つの惑星」をすべて網羅

この新しいベンチマークは、地球を構成する**6 つの主要な「分野(スフィア)」と、それらが「混ざり合う部分」**のすべてをカバーしています。

  1. 大気圏(空、天気、気候)
  2. 岩石圏(地盤、地震、火山)
  3. 水圏(海、川、湖)
  4. 氷圏(氷河、海氷)
  5. 生物圏(植物、動物、生態系)
  6. 人間活動圏(都市、農業、災害)
  7. + 交差点(これらがどう影響し合うか)

例え話:
これまでのテストが「料理の味見」だけだったとすれば、OmniEarth-Bench は**「料理を作るための全工程(材料選び、火加減、盛り付け、そして味見まで)」**をすべてチェックするものです。

3. 誰が作ったのか?「プロの料理人」が監修

このテスト問題集は、AI が勝手に作ったものではありません。

  • 33 種類もの異なる衛星データや観測データから作られました。
  • 20 人の専門家(博士号を持つ研究者など)と45 人のアノテーターが、約3 万問の質問と答えを、一つ一つ手作業で監修しました。

例え話:
これは、AI に「料理のレシピ」を教えるために、**「世界のトップシェフたちが集まって、109 種類の難易度の高い料理実習メニュー」**を作成したようなものです。単に「美味しいか?」だけでなく、「なぜこの火加減なのか?」「材料の組み合わせは科学的に正しいか?」まで問います。

4. 結果は?AI は「お手上げ」だった

このテストで、最新の AI モデル(GPT-4o や Gemini など)をテストしたところ、衝撃的な結果が出ました。

  • 正解率は 35% 以下でした。
  • 一部の難しい問題(特に分野をまたぐ問題)では、正解率が 0% になることもありました。

例え話:
これは、**「天才的な計算機が、算数の足し算は得意なのに、複雑な料理のレシピを見ると、全く何をすればいいか分からず、パニックを起こしている」**ような状態です。
AI は「画像を見て『雨だ』と言う」ことはできますが、「雨と土と川と雪を合わせて『明日は洪水になる』と論理的に推理する」ことが、まだ非常に苦手なのです。

5. なぜ重要なのか?

このテストは、AI が「地球の危機」にどう向き合うべきかを教えてくれます。

  • 自然災害の予測: 洪水や台風、地震の被害を正確に予測するには、AI がこれらの分野を横断して理解する必要があります。
  • 気候変動対策: 地球温暖化のような複雑な問題を解決するには、AI が「専門家」のレベルで思考できる必要があります。

まとめ

OmniEarth-Bench は、**「AI に地球の全貌を理解させるための、最も厳しく、最も包括的な試験」**です。

今の AI は、まだ「地球の専門家」には程遠いことがこのテストで明らかになりました。しかし、このテストがあるおかげで、研究者たちは「AI がどこが苦手か」を正確に把握でき、より賢く、地球に貢献できる AI を作っていくための道しるべになりました。

**「AI に地球を救う力を授けるためには、まずは地球のすべてを理解させる『入学試験』が必要だ」**というのが、この論文が伝えたいメッセージです。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →