Are Large Language Models Truly Smarter Than Humans?

本論文は、6 つの最先端大規模言語モデルを対象とした多角的な汚染監査実験を通じて、公開ベンチマークの多くが学習データと重複しており、その汚染がモデルの人間超越的なパフォーマンス評価を過大評価させている可能性を明らかにした。

Eshwar Reddy M, Sourav Karmakar

公開日 2026-03-18
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI は本当に人間より賢いのか?それとも、ただ『試験問題の答えを丸暗記』しただけなのか?」**という重要な疑問に答えるための調査報告書です。

AI(大規模言語モデル)が「弁護士試験」や「医学のテスト」で人間を超えたというニュースをよく見かけますが、この論文の著者たちは**「そのテストは、AI が事前に答えを覚えていたから高得点を取っただけではないか?」**と疑いました。

彼らは 6 つの最先端 AI を使って、3 つの異なる方法で「記憶力」をテストしました。その結果を、わかりやすい例え話で解説します。


🕵️‍♂️ 調査の概要:3 つの「嘘発見器」

著者たちは、AI が本当に理解しているのか、それとも単に「問題文の形」を覚えているだけなのかを確かめるために、3 つの異なる実験を行いました。

実験 1:インターネットの「答え帳」を探す

  • どんな実験?
    AI が勉強したデータの中に、テスト問題そのもの(または非常に似た文章)が含まれているか、インターネット上で検索して調べました。
  • 結果:
    なんと、約 14% の問題がインターネット上にすでに存在していました。特に「哲学」や「法律」などの分野では、66% もの問題がネットに載っていたのです。
  • 例え話:
    これは、**「試験当日に、先生が『答えは A です』と黒板に書いていたのを見ていた生徒」**と同じ状態です。AI は問題を解いているのではなく、答えを「見て」いただけかもしれません。

実験 2:問題文を「言い換え」てみる

  • どんな実験?
    同じ意味の問題でも、言葉を変えて(言い換えて)AI に解かせました。
    • 例:「リンゴは赤い果実です」→「赤い果実の代表格は?」
  • 結果:
    言葉が変わっただけで、AI の正解率は平均して 7% 低下しました。特に「法律」や「倫理」の分野では、20% もの点数が落ちました
  • 例え話:
    これは、**「『赤い果実』と書かれた問題には正解できるのに、『りんご』という言葉が出ると途端にわからなくなる生徒」**のようです。AI は「意味」を理解しているのではなく、「問題文の見た目(表面の形)」を覚えているだけだとバレてしまいました。

実験 3:穴埋めクイズで「記憶」を暴く

  • どんな実験?
    問題文の一部を隠して(穴埋めにして)、AI に「元の文章はどんなだった?」と当てさせました。
  • 結果:
    多くの AI が、72% の確率で「隠された部分」を正しく(またはほぼ正しく)言い当ててしまいました。
    • 面白い発見: 「DeepSeek-R1」という AI は、文字通り丸ごと覚えてはいませんでしたが、「答えの雰囲気や構造」は完璧に覚えていました(「赤い果実」の代わりに「りんご」と言える状態)。これは「分散記憶」と呼ばれる、より巧妙な暗記の形でした。
  • 例え話:
    これは、**「試験問題の本文を完全に覚えていなくても、その問題の『解き方の型』や『答えのパターン』を体に染み込ませている生徒」**のような状態です。

📊 何がわかったのか?(3 つの結論)

  1. AI の「天才」は、半分は「暗記」だった
    現在の AI がテストで高得点を取るのは、本当に賢いからというより、**「インターネットに溢れている答えを事前にインプット(暗記)していたから」**という側面が強いです。特に「STEM(科学・技術)」や「法律」の分野でこの傾向が顕著でした。

  2. 言葉が変わると、AI はボロボロになる
    人間は「リンゴ」と言われなくても「赤い果実」と言われればわかりますが、AI は**「問題文の形が変わると、急にわからなくなる」**ことがわかりました。これは、AI が「知識」を持っているのではなく、「パターン」を覚えているだけであることを示しています。

  3. DeepSeek-R1 という「特殊な生徒」
    一部の AI は、文字通り丸暗記はしていませんが、**「問題の構造そのものを理解して記憶」**していました。これは、単なる「答えの丸暗記」よりも少し進んでいますが、それでも「新しい問題」には弱いという共通点がありました。


💡 私たちへのメッセージ

この論文は、「AI が人間を超えた」というニュースを、そのまま信じてはいけないと警告しています。

  • 今のテストは「過去問」だらけ:
    現在の AI の評価テストは、インターネット上に答えが溢れているため、AI は「過去問」を解いているに過ぎません。
  • 本当の能力は「新しい問題」で測るべき:
    法律家や医者として AI を使う場合、**「見たことのない新しいケース」**に対処できるかが重要です。今のテストで高得点でも、実際の現場(新しい問題)では、AI は「答えを思い出せなくて」失敗するかもしれません。

結論:
AI は確かにすごい技術ですが、今のところ**「試験問題の答えを丸暗記した優等生」に近い状態です。本当に「賢い」かどうかを判断するには、「答えを隠した、全く新しいテスト」**で試す必要があります。

私たちが AI を使うときは、「この AI は本当に理解しているのか、それともただの『答え帳』を持っているだけなのか?」と、いつも疑ってかかることが大切だと言っています。

自分の分野の論文に埋もれていませんか?

研究キーワードに一致する最新の論文のダイジェストを毎日受け取りましょう——技術要約付き、あなたの言語で。

Digest を試す →