Each language version is independently generated for its own context, not a direct translation.

TREC 2025 RAG トラック：AI の「検索と回答」大会の解説

こんにちは！今回は、2025 年に開催された「TREC RAG トラック」という、AI 研究の大きな大会について、難しい専門用語を使わずに、わかりやすくお話しします。

この大会は、**「AI に『検索』と『文章作成』を同時にやらせて、本当に賢い答えを出せるか？」**という競争です。

1. 今年のテーマ：「キーワード」から「物語」へ

これまでの AI 検索は、**「サッカー選手給料」**のように、短いキーワードを打ち込んで、関連する記事をリストアップする感じでした。まるで辞書で単語を引くようなものです。

しかし、今年の大会（TREC 2025）では、ルールがガラッと変わりました。
参加者たちは、**「スポーツが社会に与える影響について、選手の給料、多様性、ビジネス面、そして最新のトレーニング技術がどう人々を動かしているか、詳しく知りたい」という、まるで「友人に長文のメールで相談しているような」**複雑な質問（ナラティブ）に答えなければなりません。

昔の AI： 「はい、サッカー選手の給料に関する記事が 10 件あります」
今年の AI： 「はい、スポーツは社会に大きな影響を与えています。特に選手の給料格差は問題で、女性や学生選手は不公平な扱いを受けています。また、ビジネス面ではスポンサーが優先されがちですが、最近では健康や多様性を重視する動きも出てきています……」

このように、**「深い思考」と「複数の証拠を組み合わせた説明」**ができるかが問われています。

2. 参加者の挑戦：「図書館の司書」から「探偵」へ

参加した AI システムたちは、**「探偵」**のような役割を担います。

証拠集め（検索）： 膨大な文書（MS MARCO というデータベース）の中から、質問に関連する「断片（パズルのピース）」を見つけ出します。
推理と執筆（生成）： 見つかったピースをつなぎ合わせ、論理的で、かつ**「どこからその情報を持ってきたか（出典）」を明記した**文章を作ります。

ここでの重要なルールは**「嘘をつかないこと」と「出典をちゃんと示すこと」**です。AI が勝手に「たぶんこうだろう」と推測して嘘の情報を混ぜてはいけません。すべての主張には、必ず裏付けとなる文書への「引用（脚注）」が必要です。

3. 審査の仕組み：「3 段階のチェック」

この大会の審査は、ただ「答えが正しいか」だけを見るのではなく、非常に細かく、3 つのステップでチェックされます。

ステップ①：「答えの網羅性」チェック

質問が「スポーツの社会影響」についてなら、その中に「給料」「多様性」「ビジネス」「トレーニング」など、いくつかの**「小さなテーマ（サブナラティブ）」が含まれています。
審査員（人間と AI の両方）は、「この答えは、すべての小さなテーマを網羅しているか？」**をチェックします。

例：「給料」については詳しく書いてあるが、「多様性」については一言も触れていないなら、減点されます。

ステップ②：「出典の正当性」チェック

AI が書いた文章の**「1 文 1 文」**について、それが引用された文書に本当に書かれているか確認します。

フルサポート： 文書にすべて書かれている（OK！）
パーシャルサポート： 一部は合っているが、別の部分は文書にない（少し減点）
サポートなし： 文書とは全く関係ない嘘をついている（大減点！）

これは、**「引用した本を開いて、本当にそのページに書いてあるか？」**を厳しくチェックする作業です。

ステップ③：「人間と AI の一致度」チェック

審査員（人間）と、自動審査 AI が同じ答えを評価したとき、**「二人の意見がどれだけ一致しているか」**を測ります。
もし自動審査 AI が「これは素晴らしい！」と言ったのに、人間が「全然ダメだ」と言ったら、自動審査 AI の精度を上げる必要があります。

4. 大会の結果と意義

今年は 150 以上のチームが参加し、多くの新しいアイデアが生まれました。

成功例： 複数の文書をうまく読み込み、バランスの取れた、出典が明確な「探偵レポート」のような答えを出せたチーム。
課題： 長い質問のすべてを網羅するのが難しかったり、出典と内容が少しズレてしまったりするケースも見られました。

5. まとめ：なぜこれが重要なのか？

この大会は、単なる「検索エンジン」の競争ではありません。
**「AI が、私たちが抱える複雑な悩み（医療、法律、社会問題など）に対して、根拠を示しながら、信頼できる答えを返せるようになるか」**という、未来の AI 社会への挑戦です。

まるで、**「信頼できる図書館の司書」が、あなたの複雑な質問に対して、「この本と、あの本のこのページを参考にしました。だから、答えはこうです」**と、出典を明示しながら丁寧に説明してくれる状態を目指すものです。

TREC 2025 は、そんな**「信頼できる AI」**を作るための、重要な一歩となりました。

Overview of the TREC 2025 Retrieval Augmented Generation (RAG) Track

TREC 2025 RAG トラック：AI の「検索と回答」大会の解説

1. 今年のテーマ：「キーワード」から「物語」へ

2. 参加者の挑戦：「図書館の司書」から「探偵」へ

3. 審査の仕組み：「3 段階のチェック」

ステップ①：「答えの網羅性」チェック

ステップ②：「出典の正当性」チェック

ステップ③：「人間と AI の一致度」チェック

4. 大会の結果と意義

5. まとめ：なぜこれが重要なのか？

TREC 2025 検索拡張生成（RAG）トラック技術概要

1. 問題定義と背景

2. 手法とタスク設定

2.1 主要タスク

2.2 ナラティブ生成プロセス

2.3 評価フレームワーク（多層的評価）

3. 主要な結果

3.1 検索タスク（Retrieval）

3.2 AG および RAG タスク

3.3 関連性判断（RJ）タスク

4. 主要な貢献

5. 意義と将来展望

Overview of the TREC 2025 Retrieval Augmented Generation (RAG) Track

TREC 2025 RAG トラック：AI の「検索と回答」大会の解説

1. 今年のテーマ：「キーワード」から「物語」へ

2. 参加者の挑戦：「図書館の司書」から「探偵」へ

3. 審査の仕組み：「3 段階のチェック」

ステップ①：「答えの網羅性」チェック

ステップ②：「出典の正当性」チェック

ステップ③：「人間と AI の一致度」チェック

4. 大会の結果と意義

5. まとめ：なぜこれが重要なのか？

TREC 2025 検索拡張生成（RAG）トラック技術概要

1. 問題定義と背景

2. 手法とタスク設定

2.1 主要タスク

2.2 ナラティブ生成プロセス

2.3 評価フレームワーク（多層的評価）

3. 主要な結果

3.1 検索タスク（Retrieval）

3.2 AG および RAG タスク

3.3 関連性判断（RJ）タスク

4. 主要な貢献

5. 意義と将来展望

関連論文

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities