MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification

本論文は、構造化された計画と文脈推論に焦点を当てた中間トレーニング段階を経て複雑なタスクの信頼性を向上させた研究エージェント「MiroThinker-1.7」を提案し、さらに推論プロセスに局所的・大域的な検証を組み込むことで多段階問題解決の信頼性を高めた「MiroThinker-H1」を開発し、オープンウェブ調査や科学的推論などのベンチマークで最先端の性能を達成したことを報告しています。

MiroMind Team, S. Bai, L. Bing, L. Lei, R. Li, X. Li, X. Lin, E. Min, L. Su, B. Wang, L. Wang, L. Wang, S. Wang, X. Wang, Y. Zhang, Z. Zhang, G. Chen, L. Chen, Z. Cheng, Y. Deng, Z. Huang, D. Ng, J. Ni, Q. Ren, X. Tang, B. L. Wang, H. Wang, N. Wang, C. Wei, Q. Wu, J. Xia, Y. Xiao, H. Xu, X. Xu, C. Xue, Z. Yang, Z. Yang, F. Ye, H. Ye, J. Yu, C. Zhang, W. Zhang, H. Zhao, P. Zhu

公開日 Wed, 18 Ma
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

MiroThinker-1.7 & H1:複雑な問題を解決する「超優秀な調査員」の物語

この論文は、AI が複雑な問題を解決する能力を飛躍的に向上させた新しい技術「MiroThinker(ミロシンカー)」について紹介しています。

これを一言で言うと、**「ただ長く話すだけでなく、一つ一つのステップを確実に正しく、かつ最終的な答えが正しいか厳しくチェックする、超優秀な調査員 AI」**が誕生したという話です。

わかりやすくするために、いくつかの比喩を使って説明しましょう。

1. 従来の AI との違い:「走り続ける馬」vs「賢い探偵」

  • 従来の AI(古いやり方):
    昔の AI は、難しい問題に直面すると「とにかく走り続ける」ことに重点を置いていました。「もっと検索して、もっと考えて、もっと試行錯誤しよう!」と、ひたすら長い道のりを歩み続けます。でも、もし最初の方向が間違っていたら、どれだけ長く歩いてもゴールにはたどり着けません。むしろ、間違った情報を積み重ねて、余計に混乱してしまうこともあります。

    • 例: 迷路で出口を探すとき、壁にぶつかるたびに「あ、違う道だ」と気づかずに、同じ道を何回も往復して疲弊してしまう人。
  • MiroThinker-1.7(新しい基本):
    このモデルは、「走る距離」よりも**「一歩一歩の質」**を重視します。

    • 中級トレーニング(Mid-training): 新人調査員に「計画の立て方」「文脈を整理する力」「道具(検索ツールなど)の使い方」を徹底的に教えます。
    • 例: 迷路に入る前に、地図をよく読み、どのルートが良さそうか計画を立て、必要な道具(コンパスや地図)を準備してから出発する人。

2. MiroThinker-H1:「ダブルチェック」の超能力

さらに、このチームは**「MiroThinker-H1」という、さらに強力なバージョンも作りました。これがすごいのは、「検証(Verification)」**という機能を組み込んだ点です。

  • ローカル・ベリファイヤー(Local Verifier):その場のチェック役
    調査員が「よし、この情報を信じて次の行動に移ろう」と思った瞬間、**「待てよ、本当にそうか?」**と即座にチェックします。

    • 例: 道案内のアプリが「右へ曲がれ」と言っても、「あ、ここは工事中だ」と気づいて、即座に「じゃあ左に行こう」と修正する人。失敗を後で取り返すのではなく、その場で防ぎます。
  • グローバル・ベリファイヤー(Global Verifier):全体の監査役
    調査が終わった後、**「集めた証拠は本当に最終的な答えを裏付けているか?」**を全体を通して見直します。

    • 例: 事件の解決を報告する前に、「集めた証拠が矛盾していないか?」「本当に犯人はこれか?」と、裁判官のように厳しく審査する人。もし証拠が不十分なら、「まだ調査が必要だ」と言って、答えを出すのを遅らせます。

3. 実際の成果:どんなことができるようになった?

この新しい AI は、以下のような難しいタスクで驚異的な結果を出しました。

  • ネット上の深掘り調査(BrowseComp):
    複雑な情報をネットから集めて答えを出すタスクで、Google の最新 AI や Claude などの大手競合を凌駕するスコアを叩き出しました。

    • 比喩: 「1990 年代の特定の映画の撮影場所と、その時の天気、そして主演俳優の当時の年齢をすべて突き止めてください」といった、非常に複雑なクイズに、他の AI よりも速く、かつ正確に答えられるようになりました。
  • 専門分野での活躍:
    科学のオリンピック問題や、金融市場の分析、医療情報の検索など、専門知識が必要な分野でもトップクラスのパフォーマンスを発揮しています。

    • 比喩: 単に「知っている」だけでなく、専門書を読み込み、データを分析して、まるで専門家のようなレポートを書けるようになりました。
  • 長いレポート作成:
    長い調査レポートを書く際、事実関係が正確で、内容も深みのあるものを生成できます。

    • 比喩: 単なる情報の羅列ではなく、読み手が納得できるような、論理的で美しい物語(レポート)を紡ぎ出せます。

4. なぜこれがすごいのか?(重要なポイント)

この論文の最大のメッセージは、**「長くやること」ではなく「賢くやること」**が重要だということです。

  • 効率化: 以前は「もっと試行錯誤すればいい」と思われていましたが、MiroThinker は**「必要なステップ数を減らしながら、精度を上げました」**。
    • 例: 100 回も迷いながらゴールするのではなく、30 回で正解する方が、結果も良く、時間も節約できます。
  • オープンソース: すごい性能を持ちながら、この技術の一部(MiroThinker-1.7 など)は誰でも使えるように公開されています。これにより、世界中の開発者がこの「賢い調査員」の技術を応用できるようになります。

まとめ

MiroThinker-1.7 と H1 は、AI に**「計画力」「実行力」「そして自己チェック能力」**を備えさせた存在です。

これまでは「とにかく大量のデータと計算力で押し切る」のが主流でしたが、これからは**「一つ一つの判断を確実なものにし、間違いを早期に修正する」**という、より人間らしく、かつ賢いアプローチが、複雑な問題を解決する鍵になることを示した画期的な研究です。

まるで、**「慌てず騒がず、常に証拠を確認しながら、最短ルートで正解にたどり着く、究極の探偵」**が AI の世界に登場したようなものです。