Evaluating Adjective-Noun Compositionality in LLMs: Functional vs Representational Perspectives

本論文は、大規模言語モデルが形容詞と名詞の組み合わせを内部的に表現できる一方で、それが必ずしもタスク遂行能力に反映されないという乖離を明らかにし、モデルの能力を包括的に理解するために対照的評価の重要性を強調しています。

Ruchira Dhar, Qiwei Peng, Anders Søgaard

公開日 2026-03-12
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI(大規模言語モデル)は本当に『言葉の組み立て』を理解しているのか?」**という疑問に、二つの異なる角度から答えようとした面白い研究です。

タイトルを噛み砕くと、**「AI の『頭の中』と『実際の行動』は、実はズレているかもしれない」**という発見を報告しています。

以下に、専門用語を使わず、身近な例え話で解説します。


🎭 物語:「完璧な料理人」か「勘違いしたシェフ」か?

この研究では、AI を**「料理人」に例えて考えてみました。
料理人にとって重要なのは、
「食材(単語)」を組み合わせる力(構成性)**です。
例えば、「赤い」+「りんご」=「赤いりんご」というように、単純な足し算で意味が作れるかどうかです。

研究者たちは、この AI 料理人の能力を測るために、**「2 つのテスト」**を行いました。

テスト 1:「実際の料理」を見る(機能評価)

これは、AI に実際に問題を出して、正解かどうかをみるテストです。

  • 例題: 「『新しい記録』を作ったランナー」という文は、「『記録』を作ったランナー」という意味を含んでいますか?(はい/いいえ)
  • 結果: 意外なことに、AI の性能を上げようとして「もっと頭が良いモデル」にしたり、「指示に従うように訓練」したりしても、このテストの正解率は上がらなかったり、むしろ下がったりしました。
    • つまり、**「頭が良くなったはずの料理人が、実は簡単な組み合わせの料理を失敗している」**という現象が起きました。

テスト 2:「頭の中のレシピ本」を見る(表現評価)

これは、AI が実際に答えを出すのではなく、「AI の脳みそ(内部のデータ)」を覗き込んで、意味の組み合わせが正しく記録されているかを見るテストです。

  • 方法: AI の神経回路のどこに「赤い+りんご=赤いりんご」という情報が蓄えられているかを探しました。
  • 結果: 驚くべきことに、AI の頭の中には、完璧に「組み合わせのルール」が書き込まれていました。 どのモデルでも、どのレベルの脳みそでも、この情報はちゃんと存在していました。
    • つまり、**「レシピ本(頭の中)は完璧なのに、実際に料理(回答)を作る時に失敗している」**のです。

🔍 発見:なぜズレるのか?

この研究でわかった最大のポイントは、「頭の中(知識)」と「口に出すこと(行動)」が一致していないという点です。

  • AI は「知っている」のに、「できない」:
    AI は「赤いりんご」が「りんご」の一部であるという論理を、脳内のデータとして完璧に持っています。しかし、それをテスト問題として答えようとした瞬間に、なぜか間違った答えを選んでしまいます。
  • モデルを大きくしても解決しない:
    パラメータ(脳の大きさ)を増やしたり、指示に従うように訓練したりしても、この「ズレ」は直りませんでした。むしろ、指示に従うように訓練したモデルの方が、この特定のテストでは下手になることさえありました。

💡 何が重要なのか?(結論)

この論文が言いたいことは、**「AI の能力を測る時は、片方だけ見てはいけない」**ということです。

  • 行動だけ見ると: 「AI はまだ未熟で、言葉の組み合わせが苦手だ」と思ってしまうかもしれません。
  • 頭の中だけ見ると: 「AI はすでに完璧な理解を持っている」と思ってしまうかもしれません。

しかし、両方を合わせて見ると、「AI は実はすごい能力を持っているが、それを正しく発揮するスイッチがうまく入っていないだけだ」という、より深い理解が得られます。

🌟 日常への応用

私たちが AI を使う際、**「AI が間違った答えを出したからといって、AI が何も理解していないわけではない」**と知っておくことが重要です。
AI は「頭の中では正しいことを考えているのに、表現方法でつまずいている」可能性があります。

今後の AI 開発や評価では、**「答えが合っているか(機能)」だけでなく、「なぜその答えになったのか(内部の仕組み)」**の両方をチェックする「対照的な評価」が大切だと、この研究は教えてくれています。


まとめ:
AI は**「完璧なレシピ本を持っているのに、時々料理を焦がしてしまう天才シェフ」**のような存在かもしれません。私たちは、その「焦がした料理(失敗)」だけを見て能力を否定するのではなく、「レシピ本(内部構造)」も一緒にチェックして、より正確な評価をする必要があるのです。