NCL-UoR at SemEval-2026 Task 5: Embedding-Based Methods, Fine-Tuning, and LLMs for Word Sense Plausibility Rating

SemEval-2026 タスク 5 における NCL-UoR チームの論文は、埋め込みベース手法や微調整モデルと比較し、構造化されたプロンプトと明確な判断ルールを組み合わせた大規模言語モデル(LLM)のアプローチが、曖昧な同音異義語を含む物語の文脈における語義の妥当性評価において最も優れていることを示しています。

Tong Wu, Thanet Markchom, Huizhi Liang

公開日 2026-03-10
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、2026 年の「SemEval(言語処理のオリンピックのような大会)」の 5 番目の課題に参加したチーム「NCL-UoR」の報告書です。

彼らが挑んだのは、**「ある言葉が、物語の中で『どれくらい自然に聞こえるか』を 1 から 5 の点数で評価する」**という難しい仕事です。

これを一般の方にもわかりやすく、料理や探偵の物語に例えて解説しますね。


🕵️‍♂️ 課題:言葉の「意味」を当てて、点数をつけろ!

物語の中に「あいまいな言葉(多義語)」が一つ隠されています。
例えば、**「リング(ring)」**という言葉。

  • 意味 A:指輪(ジュエリー)
  • 意味 B:鳴り響く音

物語はこう続きます。

「彼は貯金を見てニヤリとした。記念日に彼女に『リング』を贈ると言った。彼女は特別なジュエリーを喜んで受け取った。」

この物語で「リング」が「鳴り響く音」だとしたら、**「ありえない(1 点)」ですよね。でも、「指輪」なら「大正解(5 点)」**です。

このチームは、AI にこの「ありえる度合い」を 1〜5 点で正確に当てさせる方法を 3 つ試しました。


🛠️ 試した 3 つの方法

1. 「辞書と計算機」を使う方法(埋め込みベース)

【イメージ:辞書を引いて、似ているか計算する】

  • やり方: 物語全体と「言葉の意味」を、AI が理解できる「数字のリスト(ベクトル)」に変換します。そして、その数字同士がどれだけ似ているか(距離が近いか)を計算して、点数を推測します。
  • 結果: 失敗しました。
  • 理由: 辞書で「似ているか」を調べるだけでは、物語の「流れ」や「文脈」が理解できません。まるで、レシピの材料リストだけを見て「この料理が美味しいか」を判断しようとしているようなもので、全体の味はわからないのです。

2. 「勉強させて、テストさせる」方法(ファインチューニング)

【イメージ:優秀な学生に教科書を与えて、試験勉強させる】

  • やり方: 既存の高性能な AI(ELECTRA や DeBERTa など)に、大量の物語と正解の点数を「教科書」として与え、AI 自身を「特化型」に改造(ファインチューニング)します。
  • 工夫: 人間の評価者同士で意見が割れる場合(「これは 3 点か 4 点か?」と迷う場合)を考慮して、AI に「迷っている場合は減点しない」というルールも教えました。
  • 結果: そこそこ成功しました。
  • 理由: 物語の流れをある程度理解できるようになりましたが、新しい物語や複雑な話になると、少し混乱して点数が外れてしまうことがありました。

3. 「探偵に指示書を与える」方法(LLM プロンプト)

【イメージ:名探偵に「事件の解き方」をマニュアルで教える】

  • やり方: 巨大な AI(GPT-4o など)に、ただ「当てて」と言うのではなく、**「探偵としての思考手順(プロンプト)」**を詳しく指示しました。
    • ステップ 1: 物語の「導入部分」は、この意味を支持しているか?
    • ステップ 2: 問題の「言葉がある文」は、その意味を裏付けているか?
    • ステップ 3: 物語の「結末」は、その意味を確定させているか?(これが一番重要!)
    • ルール: 「結末が矛盾していれば、どんなに導入が良くても 1 点か 2 点にしなさい」といった明確な判断基準を与えました。
  • 結果: 大成功!優勝しました!
  • 理由: 単に「似ている」だけでなく、**「物語の構成要素を分解して、論理的に判断する」**という人間に近い思考プロセスを AI に強制できたからです。

🏆 何がわかったのか?(結論)

この研究で一番面白い発見は以下の 2 点です。

  1. 「AI の大きさ」より「指示の仕方」が重要

    • 最新の巨大な AI(GPT-5 など)を使っても、ただ「当てて」と言うだけでは負けます。
    • 一方で、少し前のモデル(GPT-4o)でも、「探偵のようにステップバイステップで考え、矛盾があれば減点する」という指示書(プロンプト)を与えれば、最強の成績を収めました。
    • つまり、「AI に何をさせるか(指示書)」の方が、「AI がどれくらい大きいか(モデルサイズ)」よりも重要だということがわかりました。
  2. 物語の「結末」が全てを決める

    • 物語の前半(導入)がどんなにその意味を暗示していても、最後の「結末」で矛盾していれば、それは「ありえない(1 点)」になります。この「結末の重要性」を AI に理解させるのが、成功の鍵でした。

📝 まとめ

このチームは、**「AI にただ計算させるのではなく、人間のように『物語の構成』を分解して、明確なルールで判断させる」**という方法を編み出し、世界最高峰の成績を収めました。

これは、AI を使うときに「機械を大きくする」ことよりも、「人間がどう考えさせるか(指示の設計)」を工夫することが、より重要だということを教えてくれる素晴らしい研究です。