Overview of the TREC 2025 Retrieval Augmented Generation (RAG) Track

TREC 2025 RAG トラックは、MS MARCO V2.1 コーパスを用い、複雑な推論を要する長文ナラティブクエリへの対応や、透明性・事実性のある回答生成を評価対象として、信頼性の高い検索拡張生成システムの開発を促進するものです。

Shivani Upadhyay, Nandan Thakur, Ronak Pradeep, Nick Craswell, Daniel Campos, Jimmy Lin

公開日 Wed, 11 Ma
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

TREC 2025 RAG トラック:AI の「検索と回答」大会の解説

こんにちは!今回は、2025 年に開催された「TREC RAG トラック」という、AI 研究の大きな大会について、難しい専門用語を使わずに、わかりやすくお話しします。

この大会は、**「AI に『検索』と『文章作成』を同時にやらせて、本当に賢い答えを出せるか?」**という競争です。


1. 今年のテーマ:「キーワード」から「物語」へ

これまでの AI 検索は、**「サッカー 選手 給料」**のように、短いキーワードを打ち込んで、関連する記事をリストアップする感じでした。まるで辞書で単語を引くようなものです。

しかし、今年の大会(TREC 2025)では、ルールがガラッと変わりました。
参加者たちは、**「スポーツが社会に与える影響について、選手の給料、多様性、ビジネス面、そして最新のトレーニング技術がどう人々を動かしているか、詳しく知りたい」という、まるで「友人に長文のメールで相談しているような」**複雑な質問(ナラティブ)に答えなければなりません。

  • 昔の AI: 「はい、サッカー選手の給料に関する記事が 10 件あります」
  • 今年の AI: 「はい、スポーツは社会に大きな影響を与えています。特に選手の給料格差は問題で、女性や学生選手は不公平な扱いを受けています。また、ビジネス面ではスポンサーが優先されがちですが、最近では健康や多様性を重視する動きも出てきています……」

このように、**「深い思考」と「複数の証拠を組み合わせた説明」**ができるかが問われています。

2. 参加者の挑戦:「図書館の司書」から「探偵」へ

参加した AI システムたちは、**「探偵」**のような役割を担います。

  1. 証拠集め(検索): 膨大な文書(MS MARCO というデータベース)の中から、質問に関連する「断片(パズルのピース)」を見つけ出します。
  2. 推理と執筆(生成): 見つかったピースをつなぎ合わせ、論理的で、かつ**「どこからその情報を持ってきたか(出典)」を明記した**文章を作ります。

ここでの重要なルールは**「嘘をつかないこと」「出典をちゃんと示すこと」**です。AI が勝手に「たぶんこうだろう」と推測して嘘の情報を混ぜてはいけません。すべての主張には、必ず裏付けとなる文書への「引用(脚注)」が必要です。

3. 審査の仕組み:「3 段階のチェック」

この大会の審査は、ただ「答えが正しいか」だけを見るのではなく、非常に細かく、3 つのステップでチェックされます。

ステップ①:「答えの網羅性」チェック

質問が「スポーツの社会影響」についてなら、その中に「給料」「多様性」「ビジネス」「トレーニング」など、いくつかの**「小さなテーマ(サブナラティブ)」が含まれています。
審査員(人間と AI の両方)は、
「この答えは、すべての小さなテーマを網羅しているか?」**をチェックします。

  • 例: 「給料」については詳しく書いてあるが、「多様性」については一言も触れていないなら、減点されます。

ステップ②:「出典の正当性」チェック

AI が書いた文章の**「1 文 1 文」**について、それが引用された文書に本当に書かれているか確認します。

  • フルサポート: 文書にすべて書かれている(OK!)
  • パーシャルサポート: 一部は合っているが、別の部分は文書にない(少し減点)
  • サポートなし: 文書とは全く関係ない嘘をついている(大減点!)

これは、**「引用した本を開いて、本当にそのページに書いてあるか?」**を厳しくチェックする作業です。

ステップ③:「人間と AI の一致度」チェック

審査員(人間)と、自動審査 AI が同じ答えを評価したとき、**「二人の意見がどれだけ一致しているか」**を測ります。
もし自動審査 AI が「これは素晴らしい!」と言ったのに、人間が「全然ダメだ」と言ったら、自動審査 AI の精度を上げる必要があります。

4. 大会の結果と意義

今年は 150 以上のチームが参加し、多くの新しいアイデアが生まれました。

  • 成功例: 複数の文書をうまく読み込み、バランスの取れた、出典が明確な「探偵レポート」のような答えを出せたチーム。
  • 課題: 長い質問のすべてを網羅するのが難しかったり、出典と内容が少しズレてしまったりするケースも見られました。

5. まとめ:なぜこれが重要なのか?

この大会は、単なる「検索エンジン」の競争ではありません。
**「AI が、私たちが抱える複雑な悩み(医療、法律、社会問題など)に対して、根拠を示しながら、信頼できる答えを返せるようになるか」**という、未来の AI 社会への挑戦です。

まるで、**「信頼できる図書館の司書」が、あなたの複雑な質問に対して、「この本と、あの本のこのページを参考にしました。だから、答えはこうです」**と、出典を明示しながら丁寧に説明してくれる状態を目指すものです。

TREC 2025 は、そんな**「信頼できる AI」**を作るための、重要な一歩となりました。