Evaluating Adjective-Noun Compositionality in LLMs: Functional vs Representational Perspectives

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给大语言模型（LLM）做一场"双重体检"，目的是搞清楚它们到底是不是真的“懂”语言，还是只是在“背答案”。

研究者发现了一个非常有趣的现象：模型“心里明白”（内部状态），但“嘴上说不清楚”（外部表现）。

为了让你更容易理解，我们可以用"一个天才但有点迷糊的厨师"来打比方。

1. 研究背景：什么是“组合性”？

想象一下，语言就像做菜。

简单的词是食材（比如“红”、“苹果”）。
组合就是把它们放在一起（比如“红苹果”）。
组合性（Compositionality） 就是：如果你知道“红”是什么意思，也知道“苹果”是什么意思，你应该能自动推断出“红苹果”是什么意思，而不需要死记硬背每一个可能的菜名。

人类很擅长这个，但大模型（LLM）呢？它们真的懂这种逻辑吗？

2. 两种体检方法

研究者用了两种完全不同的方法来测试这些“厨师”（大模型）：

方法 A：功能测试（看它做出来的菜好不好吃）

比喻：让厨师直接做菜，然后你尝一口。如果味道对了，你就说它“懂”。
做法：给模型一些题目，比如“红车”是不是“车”？或者“假小偷”是不是“小偷”？看它能不能答对。
结果：让人大跌眼镜！
- 有些模型（比如经过“指令微调”的，也就是被人类教过怎么听话的模型），反而答错了。
- 模型越大、越聪明，有时候反而在逻辑题上表现得更差。
- 结论：从“做菜”的结果来看，它们似乎不太懂组合逻辑，甚至越练越退步。

方法 B：代表分析（看它脑子里的菜谱）

比喻：不看菜的味道，而是打开厨师的脑子（内部神经层），看看他在处理“红苹果”时，脑子里是不是真的把“红”和“苹果”的概念正确组合在了一起。
做法：研究者不直接问模型答案，而是观察模型在思考过程中，每一层神经网络里的数据状态。
结果：令人惊讶！
- 虽然模型“嘴上”答错了，但它的脑子里其实非常清楚！
- 在模型的中间层，它已经完美地构建了“红”和“苹果”的逻辑关系。这种“懂”是稳定存在的，不管模型是大是小，也不管有没有经过微调。
- 结论：从“脑子里”的状态来看，它们完全懂组合逻辑。

3. 核心发现：知行不一的“分裂”

这就是论文最核心的发现：模型内部明明已经掌握了逻辑（心里有数），但在回答问题时却经常发挥失常（嘴上乱说）。

就像那个厨师：他脑子里完全知道“红”和“苹果”怎么搭配，甚至能画出完美的食谱（内部状态完美）。但是，当他真正端出盘子（输出答案）时，可能是因为太紧张、或者被人类的指令干扰了，导致做出来的菜味道不对（功能表现失败）。

4. 为什么这很重要？

这就好比我们评价一个学生：

如果只看考试成绩（功能测试），我们会觉得这个学生很笨，逻辑不通。
但如果我们看他的草稿纸和解题思路（内部状态），我们会发现他其实完全懂，只是考试时没发挥好。

这篇论文告诉我们：
如果我们只通过“做题”来评价大模型，可能会误判它们的能力，觉得它们不懂逻辑。但实际上，它们可能只是“表达”出了问题。

5. 给未来的建议

研究者建议，以后评价大模型，不能只盯着“它答对了几道题”，还要看看“它脑子里是怎么想的”。

单一视角的陷阱：只看结果，会低估模型；只看内部，可能会高估模型的实际应用能力。
最佳方案：要把“看结果”和“看过程”结合起来，才能看清大模型真正的实力。

总结

这篇论文就像给大模型做了一次透视眼检查。它告诉我们：大模型其实是个“怀才不遇”的天才，它们心里装着严密的逻辑，但有时候就是没法在对话中完美地把它表达出来。 所以，以后别光看它们答得对不对，还得看看它们“想”得对不对。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《Evaluating Adjective-Noun Compositionality in LLMs: Functional vs Representational Perspectives》（评估大语言模型中的形容词 - 名词组合性：功能视角与表征视角）的详细技术总结。

1. 研究问题 (Problem)

核心问题：大型语言模型（LLMs）是否具备真正的**组合性（Compositionality）**能力？即模型能否像人类一样，将简单部分的含义组合成复杂含义。
现有挑战：

评估方法的割裂：目前的评估主要分为两类：
1. 功能评估（Functional）：基于提示（Prompt-based）的任务表现，关注模型输出的正确率。
2. 表征评估（Representational）：分析模型内部状态（Hidden States），关注组合结构是否在内部被编码。
研究缺口：这两类方法很少在同一模型和任务上进行对比。现有的研究往往假设任务表现好意味着内部具有组合结构，或者反之。本文旨在探究这两种视角在评估 LLM 组合性时是否得出一致的结论，还是存在分歧。

2. 方法论 (Methodology)

作者设计了一个统一的实验框架，从功能和表征两个维度评估 LLM 在**形容词 - 名词（Adjective-Noun, AN）**短语上的组合性。

2.1 任务设计 (基于三个语言学特性)

可替换性 (Substitutivity)：
- 定义：用语义兼容的修饰语替换后，是否保持蕴含关系（Entailment）。
- 数据集：AddOne。
- 示例：The runner set a new record 蕴含 The runner set a record（形容词限制但不改变核心含义）；而 The alleged thief 不蕴含 The thief。
系统性 (Systematicity)：
- 定义：能否将已知的语义关系重组以推断新关系。
- 数据集：PLANE。
- 任务：给定 $an \models n$ 和 $n \models h$ （ $h$ 是 $n$ 的上位词），推断 $an \models ah$ 是否成立。
- 示例：red car $\models$ car, car $\models$ vehicle $\rightarrow$ red car $\models$ red vehicle（成立）；但 small elephant $\models$ small animal 可能不成立（取决于形容词类型）。
过度泛化 (Overgeneralization)：
- 定义：模型是否能避免仅凭表面形式重叠而错误地应用组合规则。
- 数据集：COMPCOMB（作者新构建的数据集）。
- 任务：区分组合性短语（如 trenchcoat $\models$ coat）和非组合性/离心复合词（如 turncoat 指叛徒，不 $\models$ coat）。

2.2 实验设置

模型家族：LLaMA-2, CodeLlama, Qwen2.5-Coder, Gemma2。
变体：每个家族包含三个变体：基础模型（Base）、指令微调模型（Instruction-Tuned, IT）、更大参数规模模型（Scaled/Large）。
功能评估：
- 使用提示（Prompting）进行任务测试。
- 采用两种设置以减轻提示敏感性：生成式多项选择（Accuracy）和比较对数概率（Log-probability）。
表征评估：
- 分层探测（Layer-wise Probing）：提取 Transformer 每第 5 层的隐藏状态。
- 方法：
  - 对于 AddOne/PLANE：训练线性分类器预测蕴含标签。
  - 对于 COMPCOMB：计算 Token 嵌入之间的余弦相似度，评估类型区分能力。

3. 关键结果 (Key Results)

研究揭示了一个惊人的分歧（Striking Divergence）：

3.1 功能评估结果 (Functional Performance)

表现不稳定：组合性任务的表现并未随着模型规模扩大或指令微调而一致提升。
负面趋势：在 AddOne 和 COMPCOMB 任务上，指令微调（Instruction Tuning）和增加参数量有时反而导致性能下降。
结论：通用的能力提升（如通过缩放或微调）并不直接转化为组合性行为的功能性成功。

3.2 表征评估结果 (Representational Signals)

信号稳定：在所有模型家族和变体中，内部表征中均存在显著高于随机基线的组合性信号。
编码可靠：组合性结构被可靠地编码在内部状态中，信号强度通常在中间层达到峰值。
一致性：无论模型是基础版、指令微调版还是更大规模版，内部表征的趋势高度一致且稳定。

3.3 核心发现：功能与表征的解耦

现象：LLM 能够可靠地发展出组合性表征（内部知道如何组合），但在功能任务上却无法一致地将其转化为成功的行为输出。
含义：模型“知道”组合规则（内部有信号），但在生成输出时未能正确利用这些规则，或者被其他因素（如提示敏感性、训练目标偏差）干扰。

4. 主要贡献 (Key Contributions)

对比评估框架：首次在同一实验框架下，系统性地对比了 LLM 组合性的“功能表现”与“内部表征”，揭示了两者之间的显著差异。
揭示解耦现象：证明了 LLM 具备组合性知识（表征层面），但这种知识并不总是能转化为任务层面的成功行为。
新数据集：引入了 COMPCOMB 数据集，专门用于测试模型对过度泛化（Overgeneralization）的鲁棒性。
方法论建议：强调了**对比评估（Contrastive Evaluation）**的重要性。仅依赖任务准确率或仅依赖内部探测都会得出片面的结论。

5. 意义与启示 (Significance)

对 LLM 能力的理解：LLM 并非完全缺乏组合性，而是其内部知识与外部行为之间存在鸿沟。这挑战了“表现好即能力强”的简单假设。
评估策略的改进：未来的评估不能仅看最终答案的对错（Functional），也不能仅看内部是否有信号（Representational）。必须结合两者，才能全面理解模型的能力边界。
安全与部署：在安全敏感的应用中，理解内部结构与外部输出的不一致性至关重要。模型可能在内部拥有正确的推理逻辑，但输出却不可靠，这种“黑盒”风险需要被识别。
未来方向：建议未来的研究采用因果干预（如激活修补 Activation Patching）来验证内部表征是否直接驱动了任务行为，并扩展到其他语言结构（如子词、句子级）和多语言模型。

总结：这篇论文通过严谨的对比实验指出，大语言模型在形容词 - 名词组合性上表现出“内强外弱”或“知行不一”的特征。内部表征显示模型具备组合能力，但功能表现却受模型变体和评估设置的影响而波动。这呼吁社区采用更综合的评估视角来理解 LLM 的语言能力。