Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI は本当に『考えて』いるのか、それともただ『暗記』しているだけなのか？」**という重要な問いに答えるための新しいテスト方法を紹介しています。

タイトルは**「LINGOLY-TOO」**。少し難しい名前ですが、内容をわかりやすく説明しましょう。

🕵️‍♂️ 物語：AI 探偵と「変装」した言語

想像してみてください。ある天才的な AI 探偵が、謎解き大会に出場しています。
大会の問題は、「見知らぬ言語のルールを推測して、新しい単語を翻訳する」というものです。

1. 従来のテスト（「変装なし」の状態）

これまでのテストでは、問題がそのまま出されていました。
例えば、「ケニアの言語 X のルールを当てて」という問題が出ると、AI は**「あ、この言語は私のトレーニングデータ（過去の知識）に入ってるな！」と気づきます。
すると、AI は一生懸命「推論（考える）」する代わりに、「記憶（暗記）」から答えを引っ張り出してしまいます。
これでは、「AI が賢く考えている」のか、「ただの辞書引き」なのか、本当の力が測れません。まるで、「テスト中に教科書を開いて答えを写している生徒」**と同じです。

2. 新しいテスト「LINGOLY-TOO」の登場（「変装」の状態）

そこで研究者たちは、**「変装（Obfuscation）」という魔法をかけました。
問題文にある言語の文字を、ルールに従って「別の文字に書き換える」**のです。

元の文字：a, b, c
変装後：x, y, z（ただし、文法やルールはそのまま）

🎭 創造的な例え：「料理のレシピ」

元の状態：「卵、牛乳、小麦粉でパンケーキを作る」というレシピ。AI は「パンケーキ」を知っているので、すぐに答えられます。
変装状態：「卵」を「🥚」、「牛乳」を「🥛」、「小麦粉」を「🌾」に書き換えたレシピ。
- 「🥚、🥛、🌾で🥞を作る」と書かれても、AI は「🥞（パンケーキ）」という名前を知りません。
- しかし、「🥚と🥛を混ぜて🌾を加えれば🥞ができる」という「ルール（思考プロセス）」は全く変わっていません。

AI はもう「暗記」できません。なぜなら、変装された文字は AI のトレーニングデータに存在しないからです。
AI は**「あ、この記号とこの記号の組み合わせには、こういうルールがあるんだな」と、ゼロから「推論（考える）」**しなくてはいけません。

📊 実験結果：AI の「素顔」がバレる

この新しいテストで AI を試したところ、驚くべき結果が出ました。

変装なし（暗記可能）: AI は高得点（約 59%）を取りました。「すごい！賢い！」と思われました。
変装あり（思考必須）: AI の得点はガクンと下がり（約 48%）、特に難しい問題では 30% 台に落ち込みました。

📉 意味するところ
これは、**「AI は『考えて』いるのではなく、『知っている』ことで問題を解いていた」ことを示しています。
文字を少し変えるだけで、AI はパニックになり、ルールを適用できなくなりました。まるで、「漢字をひらがなに変えただけで、意味がわからなくなってしまった」**ような状態です。

💡 この研究のすごいところ

「思考」と「知識」を分ける
これまでのテストは、AI の「知識量」を測っていただけでした。このテストは、「新しいルールをどうやって推測するか」という、本当の思考力を測ります。
言語の「人気」が影響する
英語や中国語など、データが多い言語（高資源言語）の問題だと、AI は変装しても「なんとなく知っている」から正解しやすいことがわかりました。逆に、マイナーな言語だと、AI は完全に思考停止しました。
まだ AI は「推論」が苦手
最新の AI でも、このテストでは 50% 未満しか正解できませんでした。つまり、「複雑な論理を、ゼロから組み立てる力」はまだ人間レベルには遠いということです。

🎯 まとめ

この論文は、**「AI に『変装』した問題を出して、本当に考えているかを見極める」**という、とても面白い方法を提案しています。

これまでのテスト = 教科書を開いて解くテスト（暗記力測定）
LINGOLY-TOO = 教科書を没収し、新しいルールを自分で見つけるテスト（思考力測定）

AI が本当に「賢い」存在になるためには、単に知識を詰め込むだけでなく、この「変装された世界」でも柔軟に考えられるようになる必要があります。このテストは、そのための重要なステップなのです。

Each language version is independently generated for its own context, not a direct translation.

LINGOLY-TOO: 構造化された文字列の置換による推論と知識の分離

本論文は、ICLR 2026 にて発表された「LINGOLY-TOO」という新しいベンチマークと、それを用いた大規模言語モデル（LLM）の推論能力評価に関する研究です。以下に、問題提起、手法、主要な貢献、結果、および意義について詳細にまとめます。

1. 問題提起：推論能力の評価における「知識」と「記憶」の混入

現在の最先端言語モデルは、論理的推論タスクにおいて高い性能を示すように見えます。しかし、その性能は真の推論能力によるものではなく、以下の 2 つの要因によって過大評価されている可能性が高いと指摘されています。

知識（Knowledge）: モデルの事前学習データに含まれる言語的・事実的知識。例えば、特定の言語（ウェールズ語など）の翻訳ルールを既知であれば、言語学的な推論タスクは単なる知識の引き出しで解けてしまいます。
記憶（Memorisation）: 評価用データセット自体がトレーニングデータに含まれており、モデルが答えを丸暗記している状態。

既存のベンチマークでは、これらの「ショートカット（近道）」を避けることが難しく、モデルが推論ではなく知識や記憶に依存して正解しているケースが多発しています。特に、高資源言語や既存の言語オリンピック問題では、この問題が顕著です。

2. 手法：LINGOLY-TOO と「推論不変な文字列置換」

この問題を解決するため、著者らは「LINGOLY-TOO」という新しいベンチマークを提案しました。これは、英国言語オリンピック（UKLO）の 82 問の問題を基に、専門家が設計した**「推論不変な文字列置換（Reasoning-Equivariant Permutation）」**を適用して生成されたものです。

核心的な手法：文字レベルの難読化（Obfuscation）

従来の置換手法（同義語交換や文の言い換えなど）は、言語の構造的な単位を壊してしまうため不適切です。LINGOLY-TOO では、以下の原則に基づいたグラフエム（文字または文字の組み合わせ）レベルの置換を行います。

推論ロジックの保存: 問題の解法に必要な文法規則（例：母音調和、接尾辞の規則など）は完全に保存されます。
知識の排除: 言語の文字体系（オソグラフィ）をランダムに置換し、モデルが事前知識（その言語の単語や発音）やトレーニングデータからの記憶に頼れないようにします。
制約の維持: 言語学的な制約（例：円唇母音と非円唇母音のペア、有声・無声の対など）は維持されます。これにより、問題が解けない状態になるのを防ぎつつ、モデルにとって未知の文字列として扱われます。
固有語の保護: 人名、神名、聖地、あるいは問題の解法に直接役立つ借用語（cognates）は置換されず、そのまま残されます。

これにより、モデルは「その言語の知識」ではなく、文脈から抽象的なルールを導き出し、適用する**帰納的推論（Inductive Reasoning）**能力のみが試されることになります。

データセットの構成

元データ: UKLO の 82 問題（1,005 個のサブ質問）。
拡張: 各問題に対して最大 6 種類の置換パターンを生成。
総数: 1,203 個の質問、合計 6,995 個の（サブ質問、答え）ペア。
難易度: ブレイクスルー、ファウンデーション、インターミディエイト、アドバンス、ラウンド 2 の 5 レベル。

3. 主要な貢献

未飽和な推論ベンチマークの提供:
最先端モデル（GPT-5 など）でも、難易度の高い問題で 31% 以下のスコアしか達成できず、ベンチマークが飽和していないことを示しました。
知識効果の定量化手法:
元の問題（知識が利用可能）と難読化された問題（知識が利用不可）のスコア差を分析することで、モデルが推論ではなく知識に依存している度合いを測定可能にしました。
汚染のない問題生成手法:
未公開の UKLO 2025 問題を用いた実験により、置換による性能低下がトレーニングデータの重複（汚染）だけでなく、知識への依存によるものであることを実証しました。

4. 実験結果

全体性能

知識依存の過大評価: 元の問題（ $M_{og}$ ）では、最先端モデルは約 0.59 のスコアを達成しましたが、難読化後の問題（ $M_{obf}$ ）では 0.48 まで低下しました。
推論モデルの限界: 推論に特化したモデル（GPT-5, Claude 3.7 Thinking など）は汎用モデルより優れていますが、置換に対して依然として敏感です。スコアは 0.59 から 0.48 へ低下しました。
難易度との相関: 難易度が高い問題ほどスコアは低下し、特にラウンド 2 レベルでは 0.31 以下に落ち込むモデルもありました。

知識 vs 推論

文脈なし設定（No Context）: 重要な情報を削除した状態でテストしたところ、難読化された問題ではモデルのスコアはほぼ 0（ランダムレベル）になりました。これは、モデルが推論ではなく、文脈から知識を補完して解いていたことを示唆します。
言語の資源量との相関: 話者数が多い高資源言語（日本語、フィンランド語など）の問題では、難読化によるスコア低下が顕著でした。これは、モデルが高資源言語に対しては推論ができず、知識や推測に頼っているためです。

人間との比較

人間による実験（172 名）でも、難読化によりスコアは約 5.7% 低下しましたが、LLM の低下率（約 12.8%）は人間よりも大幅に大きかったです。これは、LLM が言語の「外見（文字体系）」に依存しすぎており、純粋な推論能力が人間に比べて脆弱であることを示しています。

トークナイゼーションの影響

文字列の置換がトークナイゼーションの非効率さによって性能低下を引き起こしている可能性を検証しましたが、トークナイゼーション方法を変更しても性能は向上しませんでした。これは、性能低下が「トークンの扱い」ではなく「推論の失敗」によるものであることを示しています。

5. 意義と結論

LINGOLY-TOO は、LLM の「真の推論能力」を評価するための重要なツールを提供します。

推論の分離: 知識や記憶を排除することで、モデルが抽象的なルールを導き出し、適用する能力を純粋に測定できます。
現状の限界: 現在の最先端モデル（GPT-5, Claude 3.7 など）であっても、難読化された言語パズルにおいて、一貫性のある推論を行うことは依然として困難であり、多くのケースでショートカットに依存していることが明らかになりました。
今後の方向性: 数学やコーディング分野での進歩が言語タスクにも部分的に転移していることは確認されましたが、推論の堅牢性（Robustness）と一貫性（Consistency）は依然として未解決の課題です。

本論文は、LLM の評価において「知識」と「推論」を厳密に区別する必要性を強調し、より信頼性の高いベンチマーク設計の指針を示すものです。

LINGOLY-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation