Psychometric Item Validation Using Virtual Respondents with Trait-Response Mediators

本文提出了一种利用大语言模型模拟具有不同中介变量的虚拟受访者,以高效验证心理测量题项构念效度的新框架,并通过在三大心理特质理论上的实验证明了其能有效识别高信度题项。

Sungjib Lim, Woojung Song, Eun-Ju Lee, Yohan Jo

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种用“虚拟人”来测试心理问卷题目质量的新方法。

想象一下,心理学家想要设计一套新的性格测试题(比如测你是内向还是外向,或者测你的价值观)。以前,为了确认这些题目好不好用,他们必须找成千上万个真实的人来做测试,这既花钱又费时。

现在,作者们提出了一种更聪明的办法:用大语言模型(AI)来扮演成千上万个“虚拟人”,帮他们提前把题目测一遍。

为了让你更容易理解,我们可以用几个生动的比喻来拆解这篇论文的核心思想:

1. 核心难题:为什么题目会“失效”?

比喻:同一把钥匙,开不同的锁

假设我们要测一个人的“外向性”。我们出了一道题:“我喜欢参加社交聚会。”

  • 理想情况:外向的人会说“非常准确”,内向的人会说“非常不准确”。题目很准。
  • 现实情况(中介变量的干扰)
    • 有个外向的人,但他已经有很多朋友了,觉得不需要再去聚会,所以他对这道题选了“不准确”。
    • 有个内向的人,但他是个社恐,但为了工作不得不去,所以他也选了“不准确”。

这时候,题目就“失效”了。因为人的背景、经历、具体处境(论文里叫“中介变量”,Mediators)会干扰他们对题目的回答。如果只找一种人测,可能测不准;只有找各种各样背景的人测,发现这道题依然能准确区分性格,那这道题才是好题。

2. 传统做法 vs. 新方法

  • 传统做法(笨办法)
    去招聘网站发广告,找 1000 个不同年龄、职业、国籍的真实人类来做问卷。

    • 缺点:太贵、太慢、太麻烦。
  • 新方法(聪明办法)
    让 AI 扮演这 1000 个不同背景的人。

    • 关键点:以前的 AI 模拟只是给个简单的设定(比如“我是 30 岁的男性”)。但这篇论文发现,光有身份不够,还得有“心路历程”
    • 创新点:他们让 AI 先生成各种各样的“干扰因素”(中介变量)。
      • 比如生成一个虚拟人:“我是个很外向的人,但我最近刚失恋,不想见人。”
      • 再生成一个:“我是个内向的人,但我刚升职,需要大量社交。”
    • 然后让 AI 在这些复杂的设定下回答题目。如果一道题在各种复杂背景下,依然能准确反映出这个人的性格,那这道题就是“神题”。

3. 具体是怎么做的?(五步走)

  1. 选目标:先定好要测什么性格(比如“大五人格”里的外向性)。
  2. 造题目:让 AI 根据性格定义,自动生成一大堆新的题目。
  3. 造“干扰项”(核心步骤):让 AI 发挥想象力,编造各种各样可能影响回答的“背景故事”或“心理状态”(这就是论文里的“中介变量生成”)。
    • 比喻:就像导演给演员发剧本,不仅告诉演员“你是个外向的人”,还告诉他“但你今天刚被老板骂了,心情很差”。
  4. 虚拟测试:让 AI 扮演这些带着复杂背景故事的“虚拟人”,去回答那些新题目。
  5. 筛选好题:看哪些题目在“虚拟人”的回答中,依然能稳稳地测出性格。把这些好题挑出来,就是最终的高质量问卷。

4. 结果怎么样?

作者们用三种著名的心理学理论(大五人格、价值观理论、性格优势理论)做了实验:

  • 效果惊人:他们发现,用这种“带背景故事”的 AI 模拟法,选出来的题目质量非常高,甚至能排进所有可能题目组合的前 1% 到 13%
  • AI 很懂心理学:AI 不仅能生成题目,还能生成非常逼真的“干扰背景”,甚至不需要人类提供太多提示,它自己就能想到“哦,这个人虽然外向,但他可能因为太忙而没时间社交”。
  • 比人类快得多:以前需要几个月、花大钱找真人测试,现在用 AI 模拟,几天甚至几小时就能搞定,而且成本极低。

5. 总结与启示

这篇论文就像是在说:
以前我们为了验证一把新钥匙(问卷题目)能不能开锁,必须去试遍全世界所有的锁(找真人测试)。
现在,我们发明了一个超级模拟实验室。在这个实验室里,我们可以瞬间制造出成千上万个带着不同“烦恼”、“经历”和“性格”的虚拟人,让他们帮我们把钥匙试一遍。如果这把钥匙在虚拟世界里都能完美开锁,那它在现实世界里大概率也是把好钥匙。

这对我们意味着什么?

  • 更便宜的测试:未来开发心理测试、员工性格评估、甚至 AI 本身的安全测试,成本会大幅降低。
  • 更准的测试:因为考虑了各种复杂的“干扰因素”,测出来的结果更真实。
  • AI 的新角色:AI 不再只是回答问题,它开始学会“扮演人类”,帮助人类理解人类。

一句话总结
作者们用 AI 扮演了成千上万个“带着复杂心事”的虚拟人,帮心理学家快速筛选出了真正能测准性格的好题目,让心理问卷的制造过程变得既便宜又高效。