Think-Aloud Reshapes Automated Cognitive Model Discovery Beyond Behavior

想象一下，你试图弄清楚一位朋友是如何决定晚餐吃什么的。你有两种了解他们决策过程的方法：

“是什么”（行为）： 你观察他们点餐。他们选了披萨。你看到了结果。
“怎么做”（出声思维）： 你让他们在决策时把想法说出来。他们说：“嗯，我饿了，但披萨太油腻了。也许我应该先查一下卡路里，然后再比较价格。”

长期以来，试图构建人类思维计算机模型的科学家们只能接触到“是什么”。他们观察人们做出的选择（例如选择冒险的赌博还是稳妥的选项），并试图逆向推导其背后的数学原理。

问题在于，“是什么”往往是一面模糊的镜子。许多不同的内部数学公式都能产生完全相同的最终选择。这就像看到一辆车在街上行驶；你知道它从 A 点移动到了 B 点，但你不知道司机是在使用 GPS、地图，还是仅仅在猜测。这使得计算机模型变得“欠定”——存在太多可能的答案，计算机可能会仅仅因为某个答案勉强符合数据而选错。

新方法：倾听内心独白

这篇论文介绍了一种构建这些模型的新方法。研究人员不再仅仅观察最终选择，而是将“怎么做”——即人们在决策时的实际口头思维（出声思维轨迹）——也输入给计算机模型。

他们利用一个超级智能的 AI（大型语言模型）充当侦探。AI 接收了两类线索：

线索 A： 该人所做选择的列表。
线索 B： 该人在做出这些选择时所说的话的转录文本。

随后，AI 尝试编写一个计算机程序，既能解释这些选择，也能解释那些口头思维。

他们的发现

研究人员在人们进行风险决策（例如在确定的小奖励和可能的大奖励之间做选择）时测试了这种方法。以下是当他们把“口头思维”加入其中时发生的情况：

1. 模型变得更聪明了（预测更准确）
当 AI 仅使用选择数据时，它能做出不错的猜测。但当它结合选择数据加上口头思维时，模型在预测此人下次会做什么方面变得准确得多。这就像侦探破案：如果你只看到脚印，可能会猜错嫌疑人。但如果你还能听到嫌疑人的不在场证明，你就能更准确地锁定真相。

2. 模型改变了它们的"DNA"（结构转变）
这是最令人惊讶的部分。AI 不仅仅是微调了数字；它彻底改变了用来解释人类思维的逻辑类型。

没有口头思维时： AI 主要认为人类使用的是**“拔河”**方法。它假设人们计算选项 A 的价值，计算选项 B 的价值，然后简单地比较这两个数字，看哪个更大。
有了口头思维后： AI 意识到，对于大多数人（约 70%）来说，大脑的工作方式更像是一个**“搅拌机”**。人们并不是简单地比较两个独立的数字，而是先在每个选项内部混合各种成分（风险、奖励、概率），将它们融合成一种单一的感觉，然后再做出选择。

论文发现，对于近十分之七的人，加入口头思维迫使 AI 放弃了“拔河”模型，转而采用“搅拌机”模型。

核心启示

这篇论文的主要观点是：倾听人们如何思考，会改变我们绘制他们思维地图的方式。

如果你只看目的地（选择），你可能会画出一张看起来像直线的地图。但如果你倾听旅行者的评论，你就会意识到他们走了一条蜿蜒的小路，停下来欣赏风景，甚至可能还折返过。

通过加入“出声思维”数据，研究人员得到的不仅仅是一张稍微好一点的地图；他们发现地形本身与他们想象的不同。口头话语起到了约束作用，迫使计算机停止猜测，开始寻找人们实际使用的思维机制——如果你只观察他们的手，这些机制是看不见的。

技术摘要：有声思维重塑自动化认知模型发现

问题陈述
仅基于行为数据推导出的计算认知模型往往存在欠定问题；不同的计算机制可能产生相同或高度相似的决策模式，从而导致模型选择存在显著歧义（Wilson & Collins, 2019）。尽管“有声思维”协议长期以来被用于以自然语言捕捉过程层面的推理，但以往的研究主要集中于验证这些口头报告的可信度或开发分析它们的方法。一个根本性问题尚未被探索：有声思维的推理痕迹能否促进自动化发现那些仅凭行为数据无法恢复的计算结构？

方法论
作者采用了一种名为GeCCo（Rmus et al., 2025）的自动化模型发现框架，该框架利用大型语言模型（LLaMA-3.1-70B）迭代生成候选计算模型。这些模型被定义为将任务输入映射到决策的可执行函数。提示大语言模型提出替代模型结构，以基于其对保留数据的拟合度来改进当前表现最佳的模型。

本研究将该框架应用于一个涉及72 名参与者的风险决策数据集。在该任务中，参与者基于 Kahneman 和 Tversky（1979）确立的范式，在 19 次试验中做出二元选择。实验比较了两种条件：

仅行为：仅使用行为决策数据发现模型。
行为 + 有声思维：同时使用行为数据和参与者的口头推理痕迹作为大语言模型的输入来发现模型。

对于每位参与者，发现过程在相同的数据划分下重复 10 次。基于在 10 次保留试验上评估的贝叶斯信息准则（BIC）（Watanabe, 2013），为每种条件选择拟合度最佳的模型。为了分析模型结构，将发现的程序转换为归一化的计算图，从中提取结构特征，并使用HDBSCAN（McInnes et al., 2017）进行聚类。

主要结果

预测性能提升：包含有声思维数据发现的模型表现出显著更好的样本外预测性能。配对 t 检验显示，与仅行为条件相比，有声思维条件的保留 BIC 得分显著更低（ $t(71) = -3.41, p = 0.001$ ）。具体而言，59.7% 的参与者在有声思维条件下表现出更低的 BIC。
模型结构的系统性重塑：过程层面语言数据的纳入不仅仅是细化了现有模型，而是系统地改变了所发现机制的结构类别。聚类分析识别出三个主要的机制家族：集成效用、显式比较器和基于规则的算子。
- 结构转变：当从仅行为条件转向有声思维条件时，69.4% 的参与者被分配到了不同的机制簇中。
- 具体转变：最显著的转变是从显式比较器簇（直接计算效用并比较它们，例如 $\Delta U = U_A - U_B$ ）转向集成效用簇（在比较之前转换并整合选项）。
- 定性差异：这些转变代表了计算组织的根本性变化（例如，从直接的价值比较转变为在每个选项内部转换和整合收益/损失的过程），而非表面的代码差异。

意义与主张
该论文主张，过程层面的语言数据在约束可接受的计算模型空间方面发挥着功能性作用。通过提供对潜在认知机制的额外约束，有声思维痕迹解决了仅凭行为数据所固有的不确定性。

作者得出结论，纳入有声思维数据：

提高了自动化模型发现的预测质量。
系统地重塑了所发现认知模型的结构，从而识别出仅凭行为无法恢复的机制家族。
表明口头报告不仅仅是补充数据，而是揭示人类决策真实计算架构的关键。

这项工作证明，自动化模型发现框架可以利用自然语言痕迹来超越行为数据的欠定性，揭示出否则将保持隐藏的不同认知机制。

新方法：倾听内心独白

他们的发现

核心启示

技术摘要：有声思维重塑自动化认知模型发现

类似论文