ITLC at SemEval-2026 Task 11: Normalization and Deterministic Parsing for Formal Reasoning in LLMs

SemEval-2026 タスク 11 における多言語推論課題に対し、 syllogism を論理的な標準表現に変換し決定論的パースを適用する新規手法を提案することで、LLM の内容バイアスを大幅に低減し、複雑な微調整や活性化レベル介入に代わる競争力のある解決策として全サブタスクでトップ 5 入りを果たしたことを報告しています。

Wicaksono Leksono Muhamad, Joanito Agili Lopo, Tack Hwa Wong, Muhammad Ravi Shulthan Habibi, Samuel Cahyawijaya

公開日 2026-03-04
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

論文の解説:LLM の「論理的思考」を助ける新しい方法

この論文は、人工知能(AI)の「大規模言語モデル(LLM)」が、論理的な推論をするときに陥りやすい**「勘違い」**を直すための新しい方法を提案したものです。

SemEval-2026 という国際的なコンペティションで、このチームが提出した「ITLC」という手法が、全 4 つの課題でトップ 5 入賞を果たしました。

以下に、専門用語を排し、身近な例え話を使ってこの研究の内容を解説します。


1. 問題点:AI は「常識」に騙されやすい

AI に「論理的な問題」を解かせると、AI は**「その話、現実世界でありそうだから正しいに違いない」と勝手に判断してしまいがちです。これを論文では「コンテンツ効果(内容の影響)」**と呼んでいます。

例え話:
料理のレシピ(前提)と、完成した料理(結論)を想像してください。

  • 前提 1: 「すべてのリンゴは赤い果物である」
  • 前提 2: 「すべての赤い果物は毒がある」
  • 結論: 「だから、リンゴは毒がある」

論理的には、この推論は完璧に正しいです(A は B、B は C だから A は C)。
しかし、AI は「リンゴは毒なんてない!現実では間違っている!」と、**事実(常識)**に引きずられて「これは間違いだ」と判断してしまいます。

逆に、現実ではありえない話でも、論理構造が正しければ「正しい」と判断してほしいのに、AI は「変な話だ」と誤解してしまいます。

2. 解決策:名札を付け替えて「形」だけを見る

このチームが考えた方法は、**「中身(言葉の意味)を一旦捨てて、形(構造)だけを見る」**というものです。

ステップ 1:名札の付け替え(正規化)

AI が文章を読むとき、まず「リンゴ」「毒」「果物」といった具体的な言葉の意味を無視し、代わりに「A」「B」「C」という名札に付け替えます。

  • 元の文章: 「すべてのリンゴは赤い果物である」
  • AI の処理: 「すべてのABである」
  • 元の文章: 「すべての赤い果物は毒がある」
  • AI の処理: 「すべてのBCである」

これにより、AI は「リンゴが毒かどうか」という現実の知識に惑わされず、「A と B、B と C の関係」だけを純粋に計算できるようになります。

ステップ 2:決まりきったルールでチェック(決定論的パース)

名札に付け替えた後、AI が「あれ?これは正しいかな?」と迷うのを防ぎます。代わりに、「論理学の教科書にある厳密なルール」(決定論的パース)を機械的に適用します。

  • 「A-B-C の形なら正解」「A-C-B の形なら不正解」といった、「正解か不正解か」が 100% 決まっているルールで判定します。
  • これにより、AI の「勘」や「直感」が入り込む隙がなくなります。

3. 多言語への対応:英語を「共通言語」とする

この手法は英語だけでなく、スペイン語や中国語など、他の言語でも機能します。

  • 工夫: 日本語やスペイン語の文章を、いきなり論理変換するのではなく、一度「英語の論理構造」に翻訳してから、名札(A, B, C)に付け替えます。
  • 理由: 多くの AI は英語の論理構造を最も正確に理解できるため、一旦英語の「型」に収めることで、どんな言語でも同じように正しく処理できるのです。

4. 結果:なぜこれがすごいのか?

  • 高い精度: 論理的な正しさを判定する精度が、従来の AI 単独の判断よりも大幅に向上しました。
  • バイアスの排除: 「リンゴは毒がある」という現実的な誤解を、0% にまで減らすことができました。
  • シンプルさ: 巨大な AI を複雑に改造したり、大量のデータで再学習(ファインチューニング)させたりする必要がありません。「文章の形を変える」という単純な前処理だけで、劇的な改善が実現しました。

まとめ:料理人の「味見」を捨てる

この研究は、**「料理人(AI)が、食材(言葉の意味)の味を味わいすぎて、レシピ(論理構造)を見失うのを防ぐ」**ようなものです。

AI に「リンゴは毒があるか?」と聞かずに、「リンゴ=A、毒=C、A は C であるか?」という記号の並びだけを問うことで、AI は「現実の常識」に惑わされず、純粋な論理で正解を導き出せるようになりました。

これは、AI がより信頼性高く、公平に、そして多言語で論理的な判断を下せるようになるための、シンプルだが強力な一歩です。