EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

LLM が既存のコード生成ベンチマークで示す高い性能が単なる暗記に過ぎない可能性を指摘し、学習データとして希少なエソテリック言語を用いた新規ベンチマーク「EsoLang-Bench」を提案し、先行モデルが真の推論能力において著しく劣ることを実証した。

Aman Sharma, Paras Chopra

公開日 Wed, 11 Ma
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🧠 1. 問題:AI は「賢い」のか、それとも「暗記王」なのか?

今の AI(大規模言語モデル)は、プログラミングのテストで90% 以上の正解率を出します。まるで天才プログラマーのようです。
しかし、著者たちは「待てよ、これは本当に頭を使っているのか?それとも、テスト問題の答えを事前に覚えて(丸暗記して)出しているだけではないか?」と疑いました。

  • 今の状況: 一般的なプログラミング言語(Python など)のテストは、AI が訓練データで「見たことのある問題」ばかりです。だから、AI は「あ、これ見たことある!」と答えを呼び出すだけで、高得点を取れてしまいます。
  • 本物の力: 本当の「推理力」や「学習力」があるなら、見たこともない新しい言語を与えられても、マニュアルを読んで解けるはずです。

🎭 2. 解決策:「変な言語」で試してみよう!

そこで登場するのが、**「エソラング(Esoteric Programming Languages)」**と呼ばれる、あえて不便で奇妙なプログラミング言語です。

  • Brainfuck(ブレインファック): 命令が 8 種類しかなく、メモリのテープを操作するだけ。
  • Whitespace(ホワイトスペース): 命令が「スペース」「タブ」「改行」だけで構成され、他の文字はすべて無視されます。
  • Shakespeare(シェイクスピア): プログラムが「演劇の台本」になっていて、変数は「登場人物」、計算は「セリフ」で表現されます。

これらは、**「経済的に非合理」**な言語です。
なぜなら、これらを使ってビジネスをする人はいないし、インターネット上にデータもほとんどありません(Python の 1 万分の 1 以下のデータ量)。だから、AI が事前に「丸暗記」できるはずがないのです。

🍳 アナロジー:

  • Python のテスト = 「お母さんが毎日作ってくれる定番のオムライス」を頼む。
    • AI は「あ、これお母さんのレシピ(データ)にあるな」と即座に作れます。
  • エソラングのテスト = 「未知の惑星の料理」を頼む。
    • 材料も調理器具も見たことがありません。でも、**「レシピ本(マニュアル)」「味見(実行結果)」を渡されれば、「本当の料理人(賢い AI)」**なら、試行錯誤しながら新しい料理を作れるはずです。

📉 3. 実験結果:衝撃の「0%」

著者たちは、最先端の AI 5 種類に、この「変な言語」で 80 問のプログラミング問題を解かせました。

  • 結果: 一般的な言語では 90% 以上取れる AI が、変な言語では 0%〜11% しか正解できませんでした。
  • さらに衝撃的な事実: 「簡単」な問題なら少し解けましたが、「中級」以上の問題は、すべての AI が 0% でした。

🤖 何が起きた?
AI は「パターンマッチング(似たもの探し)」は得意ですが、「初めて見るルールを頭の中で組み立てて、新しい解決策を生み出す」という**「本物の推理力」が欠如している**ことがバレてしまいました。

  • Few-shot learning(例題を見せる): 例題を見せても、AI は「あ、これ見たことある」と思っても、新しいルールには適用できませんでした。
  • 自己反省(Self-reflection): 「間違えたから直そう」と言っても、根本的なルールが理解できていないので、直りませんでした。

🛠️ 4. 唯一の救世主:「試行錯誤」できるエージェント

唯一、少しだけ成果を上げたのは、「エージェント型 AI」(ツールを使って実際にコードを動かして、エラーを見て直すことができる AI)です。

  • 仕組み: AI がコードを書いて → 実行して → エラーが出る → 「あ、ここが間違ってた」と自分で気づいて直す、という**「試行錯誤のループ」**を回しました。
  • 結果: これでもまだ 10% 程度しか解けませんでしたが、他の方法よりはマシでした。
  • 意味: これは、AI が「マニュアルを読んで、失敗から学んで、少しずつ理解を深める」という人間に近い学習プロセスを踏むことで、わずかながら成果が出たことを示しています。

💡 5. この研究が教えてくれること

この論文は、**「AI の能力を測る新しいものさし」**を提案しています。

  1. 今のテストは「あてにならない」: 既存のテストで高得点でも、それは「暗記力」の証明に過ぎないかもしれません。
  2. 真の「推理力」は別物: 未知のルールを、マニュアルと試行錯誤だけで理解できる力が、本当の知能です。
  3. 人間との距離: 人間は新しい言語を学ぶとき、マニュアルを読んで、失敗して、直して、理解します。今の AI は、そのプロセスをまだ完全に習得できていません。

🎯 まとめ

この研究は、**「AI はまだ『賢い』というより、『記憶力抜群の真似上手』である」**という厳しい現実を突きつけました。

しかし、それは悲観することではありません。
「AI がどこまでできて、どこまでできないのか」を正確に知ることで、私たちは AI を**「過信せず、でも適切に活用する」**ことができるようになります。

「AI に魔法のような力がある」と思い込むのではなく、「AI はマニュアルと失敗から学ぶ必要がある生徒」だと認識する。
それが、この論文が私たちに教えてくれた、最も重要な教訓です。