Abductive Reasoning with Syllogistic Forms in Large Language Models

本文通过将演绎数据集转化为适合溯因推理的形式,评估了大语言模型在溯因推理中的准确性与偏差,旨在揭示其超越形式演绎的上下文推理能力,从而促进机器与人类认知在复杂推理任务中的融合。

Hirohiko Abe, Risako Ando, Takanobu Morishita Kentaro Ozeki, Koji Mineshima, Mitsuhiro Okada

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给现在的超级人工智能(大语言模型,LLM)做一场特殊的“逻辑体检”。

为了让你轻松理解,我们可以把人工智能想象成一个博学的“书呆子”学生,它读过海量的书,但还没真正上过“生活实践课”。

1. 核心问题:它真的会“思考”吗?

以前,大家发现这个“书呆子”学生有个毛病:它太依赖常识了。如果题目说“所有猫都会飞,汤姆是猫,所以汤姆会飞”,虽然逻辑上是对的,但因为违背常识(猫不会飞),它反而可能答错。这就像它太在意“现实世界”而忽略了“逻辑规则”。

但这篇论文的作者觉得:也许我们错怪它了?
因为人类的日常思考,不仅仅是像做数学题一样的**“演绎推理”(从规则推导结果),更多的是“溯因推理”**(Abduction)。

  • 演绎推理(Deduction):就像做数学题。
    • 规则:所有鸟都有翅膀。
    • 事实:这只动物有翅膀。
    • 结论:它是鸟。(等等,蝙蝠也有翅膀,这逻辑其实不严密,但在演绎里我们追求绝对推导
  • 溯因推理(Abduction):就像侦探破案医生看病
    • 规则:如果下雨,地会湿。
    • 事实:地湿了。
    • 推测(假设):可能是下雨了。
    • 注意:地湿也可能是洒水车经过。所以“溯因”不是 100% 确定的,它是从结果反推最可能的原因。

论文的核心观点是: 既然人类日常都在用“侦探思维”(溯因),那我们也应该看看 AI 的“侦探能力”怎么样,而不仅仅是看它会不会做数学题。

2. 实验设计:给 AI 出“侦探题”

作者们把原本用来测试“数学题”(演绎推理)的题目,改成了“侦探题”(溯因推理)。

  • 原来的题目(演绎)
    • 前提 A:所有在袋子里的东西都是白色的。
    • 前提 B:这些球是白色的。
    • 问:结论是什么?(AI 需要判断能不能推出“这些球在袋子里”)
  • 改后的题目(溯因)
    • 规则:所有在袋子里的东西都是白色的。
    • 观察:这些球是白色的。
    • 问:最合理的解释(假设)是什么?
      • 选项 1:这些球在袋子里。(可能是对的,但也可能是别的)
      • 选项 2:这些球不在袋子里。
      • 选项 3:这两个选项都不是好解释(因为光看颜色无法确定来源)。

作者给 AI 出了 216 道这样的题,还特意把题目分成了三类:

  1. 符合常识的(比如:开心的人会笑)。
  2. 违背常识的(比如:在甜品店做的蛋糕是辣的)。
  3. 中立的(比如:袋子里的东西是白色的)。

3. 实验结果:AI 的“侦探”表现令人意外

结果出来,大家发现了一个有趣的现象:

  • 做数学题(演绎)时:AI 表现不错,尤其是最新的模型(如 GPT-4),准确率很高。
  • 当侦探(溯因)时:AI 的表现反而变差了,甚至不如做数学题。

具体发现了什么?

  1. 它不懂“不知道”:当题目逻辑上无法确定答案(应该选“都不是好解释”)时,AI 经常强行选一个答案,而且经常选错。就像侦探明明证据不足,却非要胡乱指认一个嫌疑人。
  2. 它也有“偏见”:就像人类一样,如果题目内容违背常识(比如“甜品店做辣蛋糕”),AI 的推理准确率就会大幅下降。它太容易被“常识”带偏,忽略了逻辑本身。
  3. 负号陷阱:如果题目里出现了“不”、“没有”这种否定词,AI 就更容易晕头转向,胡乱猜测。

4. 为什么会出现这种情况?

作者们分析,可能是因为:

  • 训练数据偏差:AI 在训练时,看到的“数学题”(演绎推理)比“侦探题”(溯因推理)多得多。它更擅长做确定的推导,而不擅长处理“可能性”和“猜测”。
  • 被误导了:在题目中,AI 可能把“假设(Hypothesis)”这个词理解成了“必然的结论”,所以它拼命想从前提里推导出一个确定的结果,而不是去猜测一个可能的原因。

5. 总结与启示

这篇论文告诉我们:

  • AI 不是全能的:虽然它们很聪明,但在需要“根据有限线索进行猜测”这种人类很擅长的日常推理上,它们还不如做逻辑题时表现得好。
  • 偏见是共通的:AI 和人类一样,容易被常识和偏见干扰,无法完全做到“就事论事”。
  • 未来的方向:如果我们想让 AI 真正像人类一样思考(比如做医生、做侦探、做科研),我们就不能只教它做数学题,还得教它如何在信息不全时提出合理的假设,以及如何诚实地承认“我不知道”

一句话总结:
这篇论文就像给 AI 做了一次“侦探模拟考”,发现这个“书呆子”虽然数学满分,但一遇到需要“猜谜”和“推测”的生活场景,就容易犯迷糊,甚至和人类一样会被常识带偏。这提醒我们,要让 AI 真正融入人类生活,还得继续打磨它的“直觉”和“猜测能力”。