Abductive Reasoning with Syllogistic Forms in Large Language Models

本論文は、大規模言語モデル(LLM)が演繹だけでなく帰納的推論(アブダクション)においても人間と同様のバイアスを示すかどうかを、三段論法形式のデータセットを変換して検証し、文脈に即した推論の重要性を明らかにするものである。

Hirohiko Abe, Risako Ando, Takanobu Morishita Kentaro Ozeki, Koji Mineshima, Mitsuhiro Okada

公開日 2026-03-09
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 物語の舞台:「探偵ゲーム」と「数学のテスト」

この研究では、AI の頭脳をテストするために、2 つの異なるゲームを用意しました。

1. 数学のテスト(演繹:Deduction)

これは**「決まりきったルールに従って正解を導く」**ゲームです。

  • 例: 「すべての犬は動物です。これは犬です。だから、これは動物です」
  • 特徴: ルール(前提)と事実があれば、答えは一つに決まります。数学の問題のようなものです。
  • これまでの知見: 以前の研究で、AI はこの「数学のテスト」は得意ですが、常識と矛盾する問題(例:「すべての犬は空を飛ぶ」など)が出ると、論理的に正しくても「空を飛ぶのは変だ」と答えて間違ってしまうことがわかっています。

2. 探偵ゲーム(帰納・仮説:Abduction)

これが今回の研究のメインです。これは**「限られた情報から、もっともらしい理由を『推測』する」**ゲームです。

  • 例:
    • ルール: 「バッグに入っていたものはすべて白いです」
    • 事実(観察): 「このボールは白いです」
    • 推測(仮説): 「このボールはバッグに入っていたはずです」
  • 特徴: 論理的に「100% 正しい」とは言えません(白いボールはバッグ以外にあるかもしれないからです)。でも、人間は普段、こうやって「多分こうだろう」と理由を推測して生きています。
  • 今回の疑問: AI は、この「探偵ゲーム」を人間のように上手にこなせるのでしょうか?

🔍 実験の結果:AI は「探偵」よりも「計算機」が得意

研究者たちは、GPT-4 や Llama などの最新の AI に、この 2 つのゲームをやらせてみました。

結果 1:AI は「探偵」が苦手だった

驚いたことに、AI は「数学のテスト(演繹)」よりも、「探偵ゲーム(仮説)」の方が圧倒的に苦手でした。

  • なぜ? 人間は日常で「理由を推測する」ことに慣れっこですが、AI は訓練データに「論理的な正解」が多い一方で、「推測の正解」が少ないのかもしれません。
  • 特に苦手な点: 「どちらでもない(Neither)」という答えが必要な問題(例:「白ければバッグに入っているとは限らない」)で、AI は無理やり「バッグに入っていた」とか「入っていなかった」と答えてしまい、正解を逃していました。

結果 2:AI も人間と同じ「偏見」を持っていた

人間には「自分の信じていること(常識)」に反する論理を拒絶する癖(信念バイアス)があります。

  • 例: 「甘いお店で作られたものはすべて辛い」→「このケーキは甘いお店で作られた」→「だからこのケーキは辛い」
    • 論理的には正しいですが、人間は「甘いお店なのに辛い?」と違和感を感じて間違えやすいです。
  • AI の反応: 最新の AI も、この「常識との矛盾」に引っかかり、論理的に正しい答えを出せませんでした。つまり、AI も人間と同じように「偏見」を持っていることがわかりました。

結果 3:ヒントを与えると、AI は少し賢くなる

「例題を 8 つ見せてから本題を解いてください(Few-shot)」という指示を出すと、特に巨大なモデル(Llama-3-70B)は劇的に上手くなりました。

  • しかし、それでも「数学のテスト」に比べると「探偵ゲーム」の成績は低いままでした。

💡 この研究が教えてくれること

  1. AI は「計算」は得意だが、「推測」は苦手
    AI は「A なら B、B なら C」という決まりきった道筋は得意ですが、「A かもしれない、B かもしれない」という不確実な世界で「もっともらしい答え」を見つけるのは、まだ人間には及びません。

  2. AI も「偏見」を持つ
    AI は単なる計算機ではなく、人間の言葉(データ)から学習しているため、人間と同じような「常識へのこだわり」や「偏見」を持ってしまいます。これを理解しないと、AI が間違った判断を下した理由がわからなくなります。

  3. これからの AI に求められるもの
    単に「正解を導く」だけでなく、「なぜそう思ったのか?」という**理由(推測のプロセス)**を説明できる AI(説明可能な AI)を作るためには、この「探偵ゲーム」のような能力をさらに鍛える必要があります。

🌟 まとめ

この論文は、**「AI は論理のテストでは優秀だが、日常の『推測』や『理由づけ』では、まだ人間のような柔軟さや、逆に人間のような偏見も持っている」**と指摘しています。

AI をより賢く、人間らしく、そして信頼できる存在にするためには、単に「正解」を教えるだけでなく、「不確実な状況でどう推測するか」という**「探偵の心」**を育てていく必要があるのです。