Super Research: Answering Highly Complex Questions with Large Language Models through Super Deep and Super Wide Research

この論文は、大規模言語モデルが複雑な研究タスクを解決する能力を評価するための新たなタスク「Super Research」と、多様なドメインにおける 300 の専門的な質問からなるベンチマーク、そして構造化された分解や広範・深掘り検索、グラフに基づく監査プロトコルを含む評価手法を提案するものである。

Yubo Dong, Nianhao You, Yuxuan Hou, Zixun Sun, Yue Zhang, Liang Zhang, Siyuan Zhao, Hehe Fan

公開日 2026-03-04
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI に超難問を解かせて、本当に賢い研究ができるかテストする」**という新しい挑戦について書かれています。

従来の AI(大規模言語モデル)は、簡単な質問には得意ですが、「複雑な問題を解決するために、膨大な量の情報を集め、矛盾するデータを整理し、最終的に深い結論を出す」というような**「超・複雑な調査」**にはまだ苦戦していました。

この論文では、その限界を突破するための新しい基準**「スーパー・リサーチ(Super Research)」**を提案しています。

わかりやすく、3 つの重要なポイントで説明しますね。


1. 「トンネル」か「洪水」か?AI のこれまでの悩み

これまでの AI の調査能力は、2 つの極端な状態に陥りやすかったのです。

  • 「ディープ・リサーチ(Deep Research)」=トンネル掘り
    • 特徴: 1 つの穴を深く掘ることに集中する。
    • 問題: 横の視野が狭すぎて、**「トンネル視(Tunnel Vision)」**になってしまい、他の重要な視点を見逃してしまう。
  • 「ワイド・サーチ(Wide Search)」=洪水
    • 特徴: 広範囲に情報を集める。
    • 問題: 情報が多すぎて**「情報洪水(Information Overload)」**になり、何が重要でどう繋がるかがわからなくなってしまう。

「スーパー・リサーチ」の目標は、「超・深い掘り下げ」と「超・広範囲な収集」を同時に実現することです。まるで、**「広大な森をくまなく歩き回りながら(広さ)、同時に森の奥深くに眠る古代の遺跡の構造を解明する(深さ)」**ような、究極の探検です。

2. 300 問の「超・難問」でテストする

この論文では、AI の能力を測るための新しいテスト(ベンチマーク)を作りました。

  • 問題のレベル: 「免疫薬の仕組みを、がん細胞の逃げ道と自己免疫リスクのバランスを考慮して最適化するには?」といった、専門家でも頭を悩ませるような超難問が 300 問あります。
  • 必要な作業量: 1 問を解くために、AI は100 回以上の検索を行い、1,000 枚以上のウェブページを読み、矛盾する証拠を整理して、50 ページものレポートを作成する必要があります。
  • 目的: 普通のテストでは「満点」を取れても、このレベルのテストで成功すれば、どんな難しい仕事もこなせる「真の賢さ」を持っている証拠になります。

3. 「正解」をどうチェックする?(グラフ・アンカー・オーディット)

ここがこの論文の最も面白い部分です。レポートが「ただの嘘の羅列」になっていないか、どうやってチェックするのでしょうか?

従来の方法では「AI が AI を評価する」ことが多かったのですが、それでは不十分です。そこで、**「研究グラフ(Research Graph)」**という仕組みを使います。

  • イメージ: 真実の骨組みを「地図(グラフ)」として事前に作っておきます。
    • 事実(Fact): 具体的なデータや URL。
    • 洞察(Insight): 事実から導き出された論理。
    • 結論(Global Insight): 全体の結論。
  • チェック方法: AI が書いたレポートを、この「真実の地図」に重ね合わせます。
    • 「重要な事実を忘れているかな?」(網羅性)
    • 「A という事実から B という結論が、論理的に導かれているかな?」(論理的一貫性)
    • 「特定の情報源だけ偏って引用していないかな?」(引用の健康状態)

まるで**「探偵が、犯人の供述と現場の証拠を照らし合わせて、矛盾がないか徹底的に検証する」**ようなプロセスです。これにより、AI が「自信満々に嘘をついている」かどうかを、数値で正確に測ることができます。

結論:まだ AI は「新人探偵」レベル

実験の結果、最新の AI(Gemini Deep Research など)でも、このテストのスコアは29% 程度でした。
これは、「超・複雑な調査」はまだ AI にとって未開の領域であることを意味しています。

しかし、この「スーパー・リサーチ」は、AI の能力の「天井(限界)」を測るための重要なテストとして機能します。ここで成功できる AI は、将来的にどんな複雑な研究や戦略立案も、人間を凌駕する信頼性を持って行えるようになるでしょう。

一言でまとめると:
「AI に『広範囲に情報を集めつつ、深く深く考えさせる』という超難問を解かせて、その答えが本当に論理的で偏りがないかを、地図(グラフ)を使って厳しくチェックする新しいテストを作りました。今の AI はまだこれに全然追いついていませんが、これができれば未来の AI は本当に賢くなりますよ!」という内容です。