Evaluating Adjective-Noun Compositionality in LLMs: Functional vs Representational Perspectives

该论文通过提示功能评估和内部表征分析两种互补方法,揭示了大语言模型在形容词 - 名词组合任务中虽然具备可靠的组合表征能力,却难以将其一致转化为实际任务表现,从而强调了采用对比评估以全面理解模型能力的重要性。

Ruchira Dhar, Qiwei Peng, Anders Søgaard

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给大语言模型(LLM)做一场"双重体检",目的是搞清楚它们到底是不是真的“懂”语言,还是只是在“背答案”。

研究者发现了一个非常有趣的现象:模型“心里明白”(内部状态),但“嘴上说不清楚”(外部表现)。

为了让你更容易理解,我们可以用"一个天才但有点迷糊的厨师"来打比方。

1. 研究背景:什么是“组合性”?

想象一下,语言就像做菜。

  • 简单的词是食材(比如“红”、“苹果”)。
  • 组合就是把它们放在一起(比如“红苹果”)。
  • 组合性(Compositionality) 就是:如果你知道“红”是什么意思,也知道“苹果”是什么意思,你应该能自动推断出“红苹果”是什么意思,而不需要死记硬背每一个可能的菜名。

人类很擅长这个,但大模型(LLM)呢?它们真的懂这种逻辑吗?

2. 两种体检方法

研究者用了两种完全不同的方法来测试这些“厨师”(大模型):

方法 A:功能测试(看它做出来的菜好不好吃)

  • 比喻:让厨师直接做菜,然后你尝一口。如果味道对了,你就说它“懂”。
  • 做法:给模型一些题目,比如“红车”是不是“车”?或者“假小偷”是不是“小偷”?看它能不能答对。
  • 结果:让人大跌眼镜!
    • 有些模型(比如经过“指令微调”的,也就是被人类教过怎么听话的模型),反而答错了
    • 模型越大、越聪明,有时候反而在逻辑题上表现得更差。
    • 结论:从“做菜”的结果来看,它们似乎不太懂组合逻辑,甚至越练越退步。

方法 B:代表分析(看它脑子里的菜谱)

  • 比喻:不看菜的味道,而是打开厨师的脑子(内部神经层),看看他在处理“红苹果”时,脑子里是不是真的把“红”和“苹果”的概念正确组合在了一起。
  • 做法:研究者不直接问模型答案,而是观察模型在思考过程中,每一层神经网络里的数据状态。
  • 结果:令人惊讶!
    • 虽然模型“嘴上”答错了,但它的脑子里其实非常清楚
    • 在模型的中间层,它已经完美地构建了“红”和“苹果”的逻辑关系。这种“懂”是稳定存在的,不管模型是大是小,也不管有没有经过微调。
    • 结论:从“脑子里”的状态来看,它们完全懂组合逻辑。

3. 核心发现:知行不一的“分裂”

这就是论文最核心的发现:模型内部明明已经掌握了逻辑(心里有数),但在回答问题时却经常发挥失常(嘴上乱说)。

  • 就像那个厨师:他脑子里完全知道“红”和“苹果”怎么搭配,甚至能画出完美的食谱(内部状态完美)。但是,当他真正端出盘子(输出答案)时,可能是因为太紧张、或者被人类的指令干扰了,导致做出来的菜味道不对(功能表现失败)。

4. 为什么这很重要?

这就好比我们评价一个学生:

  • 如果只看考试成绩(功能测试),我们会觉得这个学生很笨,逻辑不通。
  • 但如果我们看他的草稿纸和解题思路(内部状态),我们会发现他其实完全懂,只是考试时没发挥好。

这篇论文告诉我们:
如果我们只通过“做题”来评价大模型,可能会误判它们的能力,觉得它们不懂逻辑。但实际上,它们可能只是“表达”出了问题。

5. 给未来的建议

研究者建议,以后评价大模型,不能只盯着“它答对了几道题”,还要看看“它脑子里是怎么想的”。

  • 单一视角的陷阱:只看结果,会低估模型;只看内部,可能会高估模型的实际应用能力。
  • 最佳方案:要把“看结果”和“看过程”结合起来,才能看清大模型真正的实力。

总结

这篇论文就像给大模型做了一次透视眼检查。它告诉我们:大模型其实是个“怀才不遇”的天才,它们心里装着严密的逻辑,但有时候就是没法在对话中完美地把它表达出来。 所以,以后别光看它们答得对不对,还得看看它们“想”得对不对。