COGNAC at SemEval-2026 Task 5: LLM Ensembles for Human-Level Word Sense Plausibility Rating in Challenging Narratives

SemEval-2026 タスク 5 において、複数の閉源 LLM を用いたゼロショット、Chain-of-Thought、比較的プロンプトの 3 つの戦略を組み合わせ、さらにアンサンブル手法を適用することで、人間の主観的な単語の意味妥当性評価に極めて近い性能(精度 0.92、スピアマン相関係数 0.85)を達成したシステムを提案しています。

Azwad Anjum Islam, Tisa Islam Erana

公開日 Wed, 18 Ma
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、2026 年に開催された AI 評価コンテスト「SemEval-2026」の第 5 タスクに参加したチーム「COGNAC」の取り組みについて書かれています。

一言で言うと、**「AI に『物語の中の言葉の意味』を、人間の感覚に近い形で評価させるにはどうすればいいか?」**という挑戦です。

難しい専門用語を使わず、日常の例え話を使って解説しますね。

1. 挑戦の舞台:「言葉の曖昧さ」な物語

このタスクでは、AI に短い物語を読ませ、その中の「一語多義(同じ言葉でも複数の意味を持つ)」な単語について、「その意味が物語の中でどれくらい自然か(妥当か)」を 1 点から 5 点で評価させます。

  • 例え話:
    物語に「Bank(銀行か、川岸か)」という言葉が出てきます。
    • 文脈が「お金」の話なら「銀行」が正解(5 点)。
    • 文脈が「釣り」の話なら「川岸」が正解(5 点)。
    • でも、文脈が少し曖昧だと、「銀行」も「川岸」も「まあ、あり得るかも(3 点)」という評価になります。

ここで重要なのは、**「正解が一つだけではない」**という点です。人間でも「どっちもあり得るな」と意見が分かれることがよくあります。この「人間の主観的な意見のバラつき」を AI にどう理解させるかが、このコンテストの最大の難所でした。

2. 試した 3 つの「教え方」

チームは、AI(大規模言語モデル)にこのタスクを解かせるために、3 つの異なる「教え方(プロンプト)」を試しました。

  1. ゼロショット(いきなり答えさせる):

    • 例え: 「この物語を読んで、この言葉の意味の妥当性を 1〜5 で教えて」とだけ言う。
    • 結果: 素直に答えるので悪くないが、少し浅い分析になりがち。
  2. 思考の連鎖(CoT:一歩ずつ考える):

    • 例え: 「まず物語の雰囲気を考え、次に文法をチェックし、他の意味と比較して、最後に点数をつけなさい」と、一歩ずつ思考プロセスを踏ませる
    • 結果: 意外にも、この「論理的に考えさせる」方法は、人間の「直感的な曖昧さ」を捉えるには逆効果になることがありました。AI が「考えすぎ」て、人間の感覚からズレてしまったのです。
  3. 比較評価(対決させる):

    • 例え: 「『銀行』という意味と『川岸』という意味、どっちの方がこの物語に合ってる? 両方同時に比べて、それぞれに点数をつけなさい」と言う。
    • 結果: これが一番効果的でした! 人間の評価基準自体が「他の意味と比較してどうだ」という相対的なものなので、AI に「対決」させることで、人間に近い感覚を引き出せました。

3. 最強の戦略:「AI 合唱団」

この研究の最大の発見は、**「一人の天才 AI ではなく、複数の AI を混ぜ合わせる」**ことでした。

  • 問題点: 人間でも「この物語、意味 1 が 5 点、意味 2 が 1 点」と意見が割れることがあります。一人の AI には、この「バラバラな人間の意見」をすべて再現するのは難しいのです。
  • 解決策(アンサンブル):
    異なる種類の AI 10 体(GPT や Gemini など)に同じ問題を解かせ、その答えを単純に平均しました。
    • 例え: 10 人の料理人が同じ料理の味見をして、それぞれの評価を足して平均すると、一人の料理人の「偏った好み」が消え、**「世間の平均的な美味しさ」**に近づきます。

この「AI 合唱団」方式を使うと、どんなに小さな AI でも、単独の最強 AI 以上の性能を発揮することが分かりました。

4. 結果:4 位からトップクラスへ

  • 公式発表: この「比較評価」+「AI 合唱団」の組み合わせで、コンテストの4 位に入賞しました(正解率 88%)。
  • その後の実験: コンテスト後にさらに AI を増やして実験したところ、**トップレベルの成績(正解率 92%)**まで伸びました。

まとめ:何がすごいのか?

この論文が教えてくれることは、**「曖昧で主観的な人間の判断」を AI にさせる場合、「論理的に深く考えること」よりも、「複数の視点(AI)を集めて平均化すること」**の方が、人間に近い結果を出せるということです。

まるで、**「一人の天才に頼るよりも、10 人の普通人の意見をまとめて平均した方が、世間の総意(平均的な人間の感覚)に近づく」**という、とても人間らしい(そして AI にとって重要な)発見だったのです。

彼らはこの成果を公開しており、誰でも「どの AI をどう組み合わせれば一番良い結果が出るか」を試しながら学べるようにしています。