WebDS: An End-to-End Benchmark for Web-based Data Science

本論文は、静的なデータセットや単純な Web 操作に留まらず、多様なウェブサイトからの情報収集から分析・洞察までのエンドツーエンドのデータサイエンスタスクを評価する初のベンチマーク「WebDS」を提案し、現状の LLM エージェントと人間との間に大きな性能差があることを明らかにしています。

Ethan Hsu, Hong Meng Yam, Ines Bouissou, Aaron Murali John, Raj Thota, Josh Koe, Vivek Sarath Putta, G K Dharesan, Alexander Spangher, Shikhar Murty, Tenghao Huang, Christopher D. Manning

公開日 2026-03-05
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

ウェブで「データサイエンス」ができるか?

「WebDS」という新しいテストの解説

この論文は、**「人工知能(AI)が、実際にウェブを飛び回ってデータを集め、分析し、レポートを書くことができるのか?」**という問いに答えるための、新しいテスト(ベンチマーク)「WebDS」を紹介しています。

これまでの AI のテストは、まるで「おままごと」や「単純な迷路」のようなものでした。しかし、この新しいテストは、**「現実世界の探偵仕事」**そのものです。


1. これまでのテストは「おもちゃ」だった

これまでの AI のテスト(ベンチマーク)は、2 つのどちらかに偏っていました。

  • ウェブ探索のテスト: 「レッドディに投稿する」「商品を買う」といった、単純な操作をさせるもの。まるで**「スーパーで商品を探してレジに行く」**ようなレベルです。
  • データ分析のテスト: すでに整理された Excel ファイルやデータベースを与えられて、「この数字を足して」というもの。まるで**「すでに机に並べられたレゴブロックを、指示通りに組み立てる」**ようなレベルです。

しかし、現実のデータサイエンティスト(データ分析の専門家)の仕事は、もっと複雑です。
**「インターネットのあちこちに散らばっている、バラバラな資料(新聞、政府の統計、ニュースサイト)を自分で探し出し、それを集めて、Excel で整理し、グラフを作り、最後に『どうすればいいか』というレポートを書く」**という、一連の長い作業が必要です。

これまでのテストでは、この「現実の複雑さ」が測れていませんでした。

2. 新しいテスト「WebDS」:現実の「探偵ごっこ」

そこで登場したのが**「WebDS」**です。これは、AI に「現実のデータ分析」をさせるための、世界初の本格的なテストです。

  • 29 種類の「現場」: 政府の統計サイト、ニュース、音楽のデータベース、スポーツの記録など、29 種類の異なるウェブサイトをテストに使います。
  • 870 個の「事件」: 人間が実際に書いた、870 個の難しい課題があります。
    • 例: 「2022 年 10 月 19 日時点での、大学の学生数の人種別データを調べ、国の人口動態の傾向と照らし合わせて、大学の多様性への影響を分析し、戦略委員会のためのレポートを書いてください」

これは、**「図書館、新聞社、統計局、スポーツジムを何箇所も飛び回り、手書きのメモや写真、表から情報を集め、最後に完璧な報告書を作る」**という、非常にハードな探偵仕事です。

3. 結果:AI は「おぼつかない新人探偵」

このテストで、最新の AI(GPT-4o や BrowserUse など)を試したところ、結果は衝撃的でした。

  • これまでのテスト: AI は 80% 以上の正解率を出していました(まるで「おままごと」が得意な子供)。
  • WebDS のテスト: AI の正解率は15% 以下に急落しました。
    • 一番できた AI でも、22% 程度しか正解できませんでした。
    • 一方、人間は同じ条件で**90%**の正解率を達成しました。

「なぜ AI は失敗するのか?」
分析によると、AI は以下の「探偵としての欠点」を持っていることがわかりました。

  1. 情報の「裏取り」が甘い: 正しいページに行き着いても、その中の重要な数字を読み間違えたり、見逃したりする(「ここにあるはずなのに、なぜか見えない」)。
  2. 同じミスを繰り返す: 「検索ボタンを押したのに結果が出ない」というエラーが出ても、同じボタンを何十回も押し続ける(「ループにハマる」)。
  3. 近道をして失敗する: 難しいデータ収集を避けて、適当な検索結果で「多分こうだろう」と推測して、間違った答えを出す(「証拠を無視した推測」)。

4. 何が違うのか?「魔法の杖」ではなく「道具の使い方」

これまでの AI は、頭脳(モデルの能力)を強くするだけで良くなりました。しかし、WebDS のような現実のタスクでは、**「頭が良ければいい」のではなく、「道具の使い方が上手いか」**が重要だとわかりました。

  • 人間: 「あ、このサイトはエラーが出たな。じゃあ、別の方法で探そう」と柔軟に考え、ミスを修正できます。
  • AI: 「エラーが出た」ことに気づかず、同じことを繰り返したり、適当な答えを出したりしてしまいます。

5. まとめ:AI 開発の新しい道しるべ

この「WebDS」というテストは、AI 開発者にとって**「現実の厳しさ」を教えてくれる鏡**です。

  • 現状: AI は「おままごと」は得意ですが、「現実の探偵仕事」はまだまだ未熟です。
  • 未来: このテストをクリアできるようにすることで、AI は単なる「チャットボット」から、実際にビジネスや研究で使える「データ分析のパートナー」に進化できるかもしれません。

つまり、**「AI が本当に役立つようになるためには、頭を大きくするだけでなく、現実の世界でどう動き、どう失敗を直すかを学ぶ必要がある」**という、重要なメッセージをこの論文は伝えています。