Go-Browse: Training Web Agents with Structured Exploration

本論文は、ウェブ環境の構造化探索を通じて大規模なエージェントデータを自動収集する手法「Go-Browse」を提案し、これにより 7B パラメータモデルが WebArena ベンチマークで GPT-4o mini を上回る性能を達成したことを示しています。

Apurva Gandhi, Graham Neubig

公開日 2026-03-04
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「Go-Browse(ゴー・ブラウズ)」**という新しい方法を紹介しています。これは、AI がインターネットを自由に動き回り、タスクをこなすための「練習用データ」を、人間の手を借りずに大量に集めるための仕組みです。

まるで**「AI 探検隊」**を組織して、未知の国(ウェブサイト)を地図に書き起こしながら、その土地の使い方を学ばせるようなイメージです。

以下に、専門用語を避け、日常の言葉と比喩を使って解説します。


🌍 問題:AI は「道に迷う」のが苦手

まず、今の AI(特にウェブを操作する AI)には大きな弱点があります。それは**「環境を理解していない」**ことです。

  • 例え話:
    人間が初めて訪れた街で、目的地(例:「一番近いコーヒーショップに行く」)にたどり着くのは簡単ですが、AI はそうはいきません。
    今の AI は、教科書(マニュアル)を読んだり、誰かが「どうやってコーヒーを買うか」を教えてもらったりはできます。しかし、**「初めて入った全く違うカフェ」**に行くと、ドアの場所もわからないし、注文の仕方もわからず、途方に暮れてしまいます。
    既存の AI は、特定のサイト(例:Amazon)ではそこそこできますが、別のサイトに行くと「さっきまでできていたのに、なぜか動かない!」という状態になりやすいのです。

🗺️ 解決策:Go-Browse(ゴー・ブラウズ)の仕組み

この論文の著者たちは、AI に「教科書」ではなく、**「自分で地図を作りながら旅をする」**経験をさせることで、この弱点を克服しようと考えました。

彼らが開発した**「Go-Browse」**は、以下のような 3 つのステップで動きます。

1. 地図を作る(探索の枠組み)

AI は、訪れたことのあるウェブページを「ノード(地点)」として、ページ間のリンクを「道」として記録します。

  • 比喩: 探検家が新しい街に入ったとき、ただ漫然と歩くのではなく、「ここからここに行ける」「ここは面白い店がある」と地図に書き込んでいくようなイメージです。

2. 2 つの役割分担(内側と外側のループ)

Go-Browse は、大きく分けて 2 つの動きを同時に行います。

  • 外側のループ(地図の広げ方):
    「まだ行ったことのない新しいページ」を見つけに行きます。
    • 役割: 「ナビゲーター(NavExplorer)」。新しい道を探し、地図の範囲を広げます。
  • 内側のループ(その場所の使い方の学習):
    見つかった新しいページで、「ここで何ができるか」を徹底的に探ります。
    • 役割: 「現地ガイド(PageExplorer)」。そのページで「商品を買う」「検索する」「設定を変える」など、具体的なアクションを提案し、試します。

3. 失敗を恐れず、リセットして再挑戦

ここが最大の特徴です。
もし AI が深い階層(例:「商品詳細ページ」)にたどり着けたとしても、そこで失敗しても、**「最初からやり直す」のではなく、「その深い場所までたどり着けた瞬間にリセットして、そこからまた試す」**ことができます。

  • 比喩:
    従来の方法だと、「山頂(深いページ)に行くには、麓から登り直さなければならない」ので、登るだけで疲れ果ててしまいます。
    しかし、Go-Browse は**「山頂にリフト(リセット機能)がある」ようなものです。一度山頂まで行けたら、そこから「山頂で何ができるか(滑る、写真を撮るなど)」を何度も練習できます。
    これにより、
    「道を見つけること(ナビゲーション)」「その場所での作業(タスク解決)」**を分けて練習できるため、AI が効率よく上達します。

📊 結果:小さなモデルでも大活躍

この方法で集めたデータ(1 万個以上の成功した旅の記録)を使って、70 億パラメータという比較的小さな AI モデルを学習させました。

  • 結果:
    この AI は、GPT-4o mini(非常に高性能なモデル)よりも高い成功率を叩き出しました。
    しかも、これまでは「100 億パラメータ未満のモデル」では世界最高峰だった記録を、2.9% 上回る結果となりました。

🎓 なぜこれがすごいのか?(まとめ)

  1. 人間がいらない: 人間が手動で「ここをクリックして、あそこへ行って」とデータを作る必要がありません。AI 自身が勝手に探検してデータを集めます。
  2. 効率が良い: 「同じ場所を何度も無駄に歩き回る」のを防ぎ、**「一度見つけた良い場所には、何度も戻って練習する」**という戦略で、学習効率を劇的に上げました。
  3. 小さな AI でも強くなる: 通常、難しいタスクには巨大な AI が必要ですが、この「Go-Browse」で集めた質の高いデータを使えば、比較的小さな AI でも、巨大な AI に負けないくらい賢くなれます。

🚀 結論

この論文は、**「AI に『道案内』と『現地での行動』を分けて、地図を作りながら練習させる」**という画期的な方法を示しました。これにより、AI はどんな新しいウェブサイトに行っても、すぐにその使い方をマスターできるようになり、私たちがネット上で行う様々な作業を、よりスムーズにサポートしてくれるようになるでしょう。

まるで、**「旅慣れたガイド」**が付き添ってくれるような、賢くて頼れる AI 助手が誕生したのです。