LINGOLY-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation

本論文は、言語学オリンピックの問題に専門的な文字列置換を施して知識や暗記に依存しないよう工夫した新しいベンチマーク「LINGOLY-TOO」を提案し、これにより大規模言語モデルの推論能力を知識の蓄積から分離してより正確に評価できることを示しています。

Jude Khouja, Lingyi Yang, Karolina Korgul, Simeon Hellsten, Vlad A. Neacsu, Harry Mayne, Ryan Othniel Kearns, Andrew M. Bean, Adam Mahdi

公開日 2026-03-04
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI は本当に『考えて』いるのか、それともただ『暗記』しているだけなのか?」**という重要な問いに答えるための新しいテスト方法を紹介しています。

タイトルは**「LINGOLY-TOO」**。少し難しい名前ですが、内容をわかりやすく説明しましょう。

🕵️‍♂️ 物語:AI 探偵と「変装」した言語

想像してみてください。ある天才的な AI 探偵が、謎解き大会に出場しています。
大会の問題は、「見知らぬ言語のルールを推測して、新しい単語を翻訳する」というものです。

1. 従来のテスト(「変装なし」の状態)

これまでのテストでは、問題がそのまま出されていました。
例えば、「ケニアの言語 X のルールを当てて」という問題が出ると、AI は**「あ、この言語は私のトレーニングデータ(過去の知識)に入ってるな!」と気づきます。
すると、AI は一生懸命「推論(考える)」する代わりに、
「記憶(暗記)」から答えを引っ張り出してしまいます。
これでは、「AI が賢く考えている」のか、「ただの辞書引き」なのか、本当の力が測れません。まるで、
「テスト中に教科書を開いて答えを写している生徒」**と同じです。

2. 新しいテスト「LINGOLY-TOO」の登場(「変装」の状態)

そこで研究者たちは、**「変装(Obfuscation)」という魔法をかけました。
問題文にある言語の文字を、ルールに従って
「別の文字に書き換える」**のです。

  • 元の文字:a, b, c
  • 変装後:x, y, z(ただし、文法やルールはそのまま)

🎭 創造的な例え:「料理のレシピ」

  • 元の状態:「卵、牛乳、小麦粉でパンケーキを作る」というレシピ。AI は「パンケーキ」を知っているので、すぐに答えられます。
  • 変装状態:「卵」を「🥚」、「牛乳」を「🥛」、「小麦粉」を「🌾」に書き換えたレシピ。
    • 「🥚、🥛、🌾で🥞を作る」と書かれても、AI は「🥞(パンケーキ)」という名前を知りません。
    • しかし、「🥚と🥛を混ぜて🌾を加えれば🥞ができる」という「ルール(思考プロセス)」は全く変わっていません。

AI はもう「暗記」できません。なぜなら、変装された文字は AI のトレーニングデータに存在しないからです。
AI は**「あ、この記号とこの記号の組み合わせには、こういうルールがあるんだな」と、ゼロから「推論(考える)」**しなくてはいけません。

📊 実験結果:AI の「素顔」がバレる

この新しいテストで AI を試したところ、驚くべき結果が出ました。

  • 変装なし(暗記可能): AI は高得点(約 59%)を取りました。「すごい!賢い!」と思われました。
  • 変装あり(思考必須): AI の得点はガクンと下がり(約 48%)、特に難しい問題では 30% 台に落ち込みました。

📉 意味するところ
これは、**「AI は『考えて』いるのではなく、『知っている』ことで問題を解いていた」ことを示しています。
文字を少し変えるだけで、AI はパニックになり、ルールを適用できなくなりました。まるで、
「漢字をひらがなに変えただけで、意味がわからなくなってしまった」**ような状態です。

💡 この研究のすごいところ

  1. 「思考」と「知識」を分ける
    これまでのテストは、AI の「知識量」を測っていただけでした。このテストは、「新しいルールをどうやって推測するか」という、本当の思考力を測ります。
  2. 言語の「人気」が影響する
    英語や中国語など、データが多い言語(高資源言語)の問題だと、AI は変装しても「なんとなく知っている」から正解しやすいことがわかりました。逆に、マイナーな言語だと、AI は完全に思考停止しました。
  3. まだ AI は「推論」が苦手
    最新の AI でも、このテストでは 50% 未満しか正解できませんでした。つまり、「複雑な論理を、ゼロから組み立てる力」はまだ人間レベルには遠いということです。

🎯 まとめ

この論文は、**「AI に『変装』した問題を出して、本当に考えているかを見極める」**という、とても面白い方法を提案しています。

  • これまでのテスト = 教科書を開いて解くテスト(暗記力測定)
  • LINGOLY-TOO = 教科書を没収し、新しいルールを自分で見つけるテスト(思考力測定)

AI が本当に「賢い」存在になるためには、単に知識を詰め込むだけでなく、この「変装された世界」でも柔軟に考えられるようになる必要があります。このテストは、そのための重要なステップなのです。