COGNAC at SemEval-2026 Task 5: LLM Ensembles for Human-Level Word Sense Plausibility Rating in Challenging Narratives

Each language version is independently generated for its own context, not a direct translation.

この論文は、2026 年に開催された AI 評価コンテスト「SemEval-2026」の第 5 タスクに参加したチーム「COGNAC」の取り組みについて書かれています。

一言で言うと、**「AI に『物語の中の言葉の意味』を、人間の感覚に近い形で評価させるにはどうすればいいか？」**という挑戦です。

難しい専門用語を使わず、日常の例え話を使って解説しますね。

1. 挑戦の舞台：「言葉の曖昧さ」な物語

このタスクでは、AI に短い物語を読ませ、その中の「一語多義（同じ言葉でも複数の意味を持つ）」な単語について、「その意味が物語の中でどれくらい自然か（妥当か）」を 1 点から 5 点で評価させます。

例え話：
物語に「Bank（銀行か、川岸か）」という言葉が出てきます。
- 文脈が「お金」の話なら「銀行」が正解（5 点）。
- 文脈が「釣り」の話なら「川岸」が正解（5 点）。
- でも、文脈が少し曖昧だと、「銀行」も「川岸」も「まあ、あり得るかも（3 点）」という評価になります。

ここで重要なのは、**「正解が一つだけではない」**という点です。人間でも「どっちもあり得るな」と意見が分かれることがよくあります。この「人間の主観的な意見のバラつき」を AI にどう理解させるかが、このコンテストの最大の難所でした。

2. 試した 3 つの「教え方」

チームは、AI（大規模言語モデル）にこのタスクを解かせるために、3 つの異なる「教え方（プロンプト）」を試しました。

ゼロショット（いきなり答えさせる）：
- 例え： 「この物語を読んで、この言葉の意味の妥当性を 1〜5 で教えて」とだけ言う。
- 結果： 素直に答えるので悪くないが、少し浅い分析になりがち。
思考の連鎖（CoT：一歩ずつ考える）：
- 例え： 「まず物語の雰囲気を考え、次に文法をチェックし、他の意味と比較して、最後に点数をつけなさい」と、一歩ずつ思考プロセスを踏ませる。
- 結果： 意外にも、この「論理的に考えさせる」方法は、人間の「直感的な曖昧さ」を捉えるには逆効果になることがありました。AI が「考えすぎ」て、人間の感覚からズレてしまったのです。
比較評価（対決させる）：
- 例え： 「『銀行』という意味と『川岸』という意味、どっちの方がこの物語に合ってる？ 両方同時に比べて、それぞれに点数をつけなさい」と言う。
- 結果： これが一番効果的でした！ 人間の評価基準自体が「他の意味と比較してどうだ」という相対的なものなので、AI に「対決」させることで、人間に近い感覚を引き出せました。

3. 最強の戦略：「AI 合唱団」

この研究の最大の発見は、**「一人の天才 AI ではなく、複数の AI を混ぜ合わせる」**ことでした。

問題点： 人間でも「この物語、意味 1 が 5 点、意味 2 が 1 点」と意見が割れることがあります。一人の AI には、この「バラバラな人間の意見」をすべて再現するのは難しいのです。
解決策（アンサンブル）：
異なる種類の AI 10 体（GPT や Gemini など）に同じ問題を解かせ、その答えを単純に平均しました。
- 例え： 10 人の料理人が同じ料理の味見をして、それぞれの評価を足して平均すると、一人の料理人の「偏った好み」が消え、**「世間の平均的な美味しさ」**に近づきます。

この「AI 合唱団」方式を使うと、どんなに小さな AI でも、単独の最強 AI 以上の性能を発揮することが分かりました。

4. 結果：4 位からトップクラスへ

公式発表： この「比較評価」＋「AI 合唱団」の組み合わせで、コンテストの4 位に入賞しました（正解率 88%）。
その後の実験： コンテスト後にさらに AI を増やして実験したところ、**トップレベルの成績（正解率 92%）**まで伸びました。

まとめ：何がすごいのか？

この論文が教えてくれることは、**「曖昧で主観的な人間の判断」を AI にさせる場合、「論理的に深く考えること」よりも、「複数の視点（AI）を集めて平均化すること」**の方が、人間に近い結果を出せるということです。

まるで、**「一人の天才に頼るよりも、10 人の普通人の意見をまとめて平均した方が、世間の総意（平均的な人間の感覚）に近づく」**という、とても人間らしい（そして AI にとって重要な）発見だったのです。

彼らはこの成果を公開しており、誰でも「どの AI をどう組み合わせれば一番良い結果が出るか」を試しながら学べるようにしています。

COGNAC at SemEval-2026 Task 5: LLM Ensembles for Human-Level Word Sense Plausibility Rating in Challenging Narratives

1. 挑戦の舞台：「言葉の曖昧さ」な物語

2. 試した 3 つの「教え方」

3. 最強の戦略：「AI 合唱団」

4. 結果：4 位からトップクラスへ

まとめ：何がすごいのか？

1. 問題設定 (Problem)

2. 手法 (Methodology)

A. 3 つのプロンプト戦略

B. LLM アンサンブル手法

3. 主要な貢献 (Key Contributions)

4. 結果 (Results)

5. 意義と結論 (Significance)

COGNAC at SemEval-2026 Task 5: LLM Ensembles for Human-Level Word Sense Plausibility Rating in Challenging Narratives

1. 挑戦の舞台：「言葉の曖昧さ」な物語

2. 試した 3 つの「教え方」

3. 最強の戦略：「AI 合唱団」

4. 結果：4 位からトップクラスへ

まとめ：何がすごいのか？

1. 問題設定 (Problem)

2. 手法 (Methodology)

A. 3 つのプロンプト戦略

B. LLM アンサンブル手法

3. 主要な貢献 (Key Contributions)

4. 結果 (Results)

5. 意義と結論 (Significance)

関連論文

Recursive Language Models Meet Uncertainty: The Surprising Effectiveness of Self-Reflective Program Search for Long Context

MedArena: Comparing LLMs for Medicine-in-the-Wild Clinician Preferences

MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification

Morphemes Without Borders: Evaluating Root-Pattern Morphology in Arabic Tokenizers and LLMs

Agent-based imitation dynamics can yield efficiently compressed population-level vocabularies