WebChain: A Large-Scale Human-Annotated Dataset of Real-World Web Interaction Traces

WebChain は、視覚・構造・行動データの三重アライメントを備えた大規模な人間注釈付き Web 操作データセットであり、これを用いたデュアル・ミッドトレーニング手法が Web エージェントの性能向上に貢献する研究です。

Sicheng Fan, Rui Wan, Yifei Leng, Gaoning Liang, Li Ling, Yanyi Shang, Dehan Kong

公開日 2026-03-06
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

1. 問題:AI はなぜ「Web 操作」が苦手なのか?

これまでの AI は、インターネット上で「チケットを予約する」や「商品を買う」といった複雑な作業をするのが苦手でした。なぜでしょうか?

  • 教科書が足りない: AI を上手に育てるには、人間が実際にどう操作したかという「正解のデータ(教科書)」が必要です。しかし、これまでの教科書は数が少なかったり、作り物(シミュレーション)が多すぎて、現実の Web サイトの「ごちゃごちゃした雰囲気」や「セキュリティの壁」を反映できていませんでした。
  • セキュリティの壁: 銀行口座へのログインや、本人確認が必要な操作は、自動プログラム(ボット)には見えないようにブロックされています。そのため、AI は「お金に関わる重要な操作」を練習する機会がほとんどありませんでした。

2. 解決策:WebChain(世界最大の「人間による操作記録」)

そこで、この研究チームは**「WebChain」**という、人間が実際にリアルな Web サイトで操作した記録を大量に集めました。

  • どんなもの?

    • 3 万 1 千件以上の操作記録(旅行予約、買い物、不動産検索など)。
    • 31 万ステップの細かい動き(クリック、入力、スクロールなど)。
    • 428 種類の異なる Web サイトを網羅。
  • 3 重の「魔法の眼鏡」:
    このデータの特徴は、AI が画面を見る時に、3 つの異なる角度から情報を得られるようにしている点です。

    1. 視覚(写真): 画面のスクリーンショット。
    2. 構造(設計図): Web サイトの裏側にある「HTML という設計図」。
    3. 行動(指の動き): 正確な「どこを、いつ、クリックしたか」の座標。

    これらを組み合わせることで、AI は単に「ボタンに見える」だけでなく、「このボタンは設計図的に何をするものか」まで理解できるようになります。

3. 集め方:「AI 助手」ではなく「人間」にやらせた

これまでの研究では、AI が勝手に Web を回ってデータを集めようとしていましたが、セキュリティに引っかかって失敗していました。
WebChain は、**「人間が実際に操作する」**という、少し手間のかかる方法を選びました。

  • 仕組み:

    1. まず、AI が「どんなタスクがあるか(例:1 万円以下の TCL 製テレビを探す)」を提案します。
    2. 人間がその指示に従って、実際にブラウザで操作します。
    3. その操作過程を、**「WebChain Builder」**というツールが、画面の見た目、裏側のコード、クリック位置などをすべて記録します。

    これにより、セキュリティに守られた重要な操作(ログインなど)も、人間が介在することで安全にデータ化できました。

4. 学習方法:「2 段階のトレーニング」で天才に

集めたデータを使って AI を訓練する際、チームは**「Dual Mid-Training(二重の中間トレーニング)」**という新しい学習法を見つけました。

これは、**「地図を読む力」「目的地までの計画力」**を分けて教えるようなものです。

  1. 第 1 段階(地図を読む力):
    まず、画面の中の「どこにボタンがあるか」を正確に見つける練習をします。ここがしっかりしないと、計画を立ててもボタンに届きません。
  2. 第 2 段階(計画力):
    次に、「まず A をして、次に B をして…」という長い手順を、論理的に考える練習をします。

このように、「見る力」と「考える力」を一度に教えず、段階的に強化した結果、AI は非常に高い精度で複雑な Web 操作をこなせるようになりました。

5. 結果:どんなすごいことができた?

この方法で育てた AI は、以下の点で素晴らしい成果を上げました。

  • 長期的な計画: 「旅行の予約をして、ホテルを比較し、クレジットカードで決済する」といった、10 回以上の手順が必要な複雑なタスクも成功させました。
  • 他の世界でも活躍: Web だけでなく、スマホや PC の操作(Android やデスクトップ)でも、他の AI よりもはるかに上手に動けることを証明しました。
  • オープンソース: この「教科書(データ)」も「作り方(ツール)」も、誰でも無料で使えるように公開しました。これにより、世界中の研究者が同じ土台で競争し、より良い AI を作れるようになります。

まとめ

この論文は、**「AI に Web 操作を教えるには、人間が実際にやった『生々しい』記録が最も重要」と証明し、そのための「世界最大の教科書」「効率的な教え方」**を世に送り出した画期的な研究です。

これにより、将来の AI アシスタントは、私たちが「ちょっと面倒くさいからやっておいて」と頼んだ複雑な Web 作業も、まるでプロの秘書のように完璧にこなしてくれるようになるかもしれません。