Each language version is independently generated for its own context, not a direct translation.
这篇文章就像是一份"AI 造人说明书大调查"。
想象一下,研究人员正在用一种超级聪明的“魔法笔”(也就是现在的 AI 大语言模型,比如 ChatGPT)来画“用户画像”。这些画像不是真人的照片,而是虚构的、代表某一类用户的“角色卡”(在学术界叫"Persona")。以前,画这些卡片需要设计师去采访真人、分析数据,非常耗时;现在,大家想试试能不能直接让 AI 写出来。
这篇论文的作者们就像侦探一样,收集了 27 篇学术论文中使用的83 个“魔法咒语”(也就是给 AI 的指令,Prompt),看看大家到底是怎么用 AI 来造这些“角色卡”的。
以下是这篇论文的核心发现,用大白话和比喻来讲:
1. 大家主要想干什么?(为什么用 AI 造人?)
- 主要目的:绝大多数时候(80% 以上),大家是用 AI 来生成新的角色卡。就像让 AI 当作家,直接写出一个“典型用户”的故事。
- 其他用途:也有少数时候,是用这些 AI 生成的角色卡去预测(比如:“如果这个用户看到这条广告,他会怎么反应?”)或者测试(比如:“这个 AI 生成的角色有没有偏见?”)。
- 应用场景:从设计软件、做营销,到研究气候变化、甚至帮心理咨询师做培训,AI 生成的角色卡无处不在。
2. 大家是怎么念“咒语”的?(怎么用 AI?)
- 工具单一:大家几乎都在用同一种“魔法笔”(主要是 GPT 系列模型),就像大家都只去同一家便利店买东西,很少尝试别的品牌。
- 咒语长短不一:
- 有的咒语很短,像“请扮演一个 30 岁的妈妈”。
- 有的咒语像一本操作手册,分 12 个步骤,先让 AI 生成骨架,再填肉,再画脸,最后生成日程表。
- 喜欢“填空”:74% 的咒语里,研究人员会把真实的数据(比如“某公司的用户数据”)塞进咒语里,让 AI 基于这些数据来编故事。这就像给 AI 一个填空题,而不是让它凭空瞎编。
- 只要“结构化”数据:超过一半的研究者要求 AI 把结果整理成表格或代码格式(比如 JSON),就像要求厨师把菜切好装进盒子里,方便后续处理,而不是端上来一盘乱炖。
3. 造出来的“角色卡”长什么样?(生成了什么样的 Persona?)
- 文字为主,数字为辅:AI 生成的角色,96% 是文字描述,67% 带有数字(比如年龄、收入)。
- 很少见“全功能”角色:传统的角色卡通常包含:文字故事 + 数字统计 + 真人照片。但在这项研究中,只有 7% 的角色卡包含了图片。大家似乎只让 AI 写故事,忘了让它“画画”。
- 内容有点“干”:
- 太短了:很多研究者要求 AI“言简意赅”,把描述限制在几句话或几个词。这就像让 AI 写人物传记,却要求它只写微博简介。这违背了传统上“角色卡要丰满、有血有肉”的原则。
- 太像“人口普查”了:生成的角色里,52% 的信息都是“人口统计学”数据(年龄、性别、职业、居住地)。这就像你问 AI“请描述一个用户”,它回答:“他叫张三,30 岁,男,住北京,开宝马。”至于他喜欢什么、讨厌什么、性格如何,往往被忽略了。
- 数量太少:很多研究只让 AI 生成一个角色。但现实中用户是多样的,只造一个角色就像只画了一个“标准人”,无法代表千差万别的真实用户。
4. 这有什么好和坏?(研究者的担忧)
- 好的方面:AI 让造角色变得超级快,而且能结合真实数据,效率很高。
- 坏的风险:
- 丢了“灵魂”:因为追求简短和结构化,AI 生成的角色可能变得冷冰冰,像 Excel 表格里的数据,而不是一个能让人产生共情的“人”。
- 刻板印象:如果 AI 只关注年龄、性别等数据,可能会加深刻板印象(比如“程序员都是秃顶的”)。
- 黑箱操作:有些研究者把 AI 的指令串成了一条长长的链条(A 的输出给 B,B 的输出给 C),一旦中间出错,很难发现是哪里的问题。
- 缺乏多样性:大家太依赖同一个 AI 模型,可能生成的角色都长得差不多,缺乏真正的多样性。
5. 给未来的建议(怎么做得更好?)
作者最后给了几个“避坑指南”:
- 别光靠 AI 瞎编:一定要把真实用户的数据喂给 AI,不要让 AI 只靠它脑子里的“知识”去编故事,否则造出来的就是假人。
- 多读点“人学”书:很多搞技术的研究者不懂“角色设计”的理论。建议多看看关于如何建立同理心、如何代表不同群体的理论,别让角色变得太单薄。
- 别只盯着一个模型:多试试不同的 AI 工具,看看谁生成的角色更靠谱。
- 别只要数据,也要故事:角色卡是为了让人理解用户,所以除了年龄和收入,更需要有温度的故事和细节。
总结一下:
这篇论文告诉我们,虽然用 AI 画“用户画像”很酷、很快,但大家现在用得有点太随意了。很多人把 AI 当成了“填表机器”,只想要冷冰冰的数据,而忘了角色卡原本是为了理解活生生的人。未来的方向应该是:用 AI 提高效率,但保留对人性的深刻理解和丰富细节。
Each language version is independently generated for its own context, not a direct translation.
论文技术总结:利用 AI 进行用户表征——83 个角色提示词(Persona Prompts)分析
1. 研究背景与问题 (Problem)
用户角色(Personas) 是基于真实用户数据构建的虚构用户代表,旨在帮助设计者和利益相关者做出更明智的决策。随着生成式人工智能(GenAI)和大语言模型(LLM)的发展,计算技术已被引入角色创建过程。然而,将 LLM 应用于用户表征存在风险,包括算法偏见、训练数据问题以及统计偏差(如向均值回归),可能导致对用户群体的错误表征。
尽管已有研究探讨了 LLM 在角色生成中的应用,但缺乏对“提示词(Prompts)”本身的系统性分析。提示词是研究人员与 LLM 交互的核心指令,其设计直接决定了生成角色的质量、多样性和安全性。目前存在以下研究缺口:
- 缺乏对研究人员如何使用 LLM 提示词进行角色生成的系统性映射。
- 缺乏关于提示词设计选择对生成角色结果影响的实证研究。
- 缺乏基于证据的指南,以指导如何安全、有效地在角色开发中使用 LLM。
2. 研究方法 (Methodology)
本研究采用系统性文献综述(SLR) 结合内容分析的方法:
- 数据来源:基于先前一项关于 GenAI 在角色开发中应用的系统性综述(共 52 篇文章),从中提取了包含提示词的文章。
- 样本选择:
- 从 52 篇文章中筛选出 27 篇 包含明确提示词(Prompts)的文章。
- 最终提取并分析了 83 个 具体的角色生成提示词。
- 编码框架:
- 由两名作者协作进行编码,确保可靠性。
- 分析维度包括:使用目的(RQ1)、使用方法/策略(RQ2)、生成角色的特征(RQ3)。
- 编码内容包括:提示词长度、使用的模型、输出格式、是否包含动态数据、角色属性类别(如人口统计学、行为、态度等)以及信息丰富度。
- 分析工具:统计了提示词的长度分布、模型使用频率、输出格式比例以及角色属性的分类统计。
3. 主要贡献 (Key Contributions)
- 首次系统性映射:提供了学术界中 LLM 角色提示词的首次系统性分析,揭示了当前的实践模式。
- 揭示实践偏差:指出了当前 LLM 生成角色与传统角色设计原则之间的显著差异(如过度追求简洁、缺乏图像、过度依赖单一模型)。
- 提出风险与机遇:深入探讨了“计算角色(Computational Personas)”的兴起,特别是将动态数据直接嵌入提示词的做法,并分析了其对透明度和人类能动性的潜在影响。
- 公开数据集:将收集到的 83 个提示词公开,为后续研究提供了基准数据集。
4. 研究结果 (Results)
RQ1: 研究人员为何使用角色提示词?
- 主要用途:绝大多数(81.48%)用于生成角色。此外,部分用于预测(25.93%,如预测用户数值回答)和评估(14.81%)。
- 应用领域:从软件设计扩展到气候变化传播、商业应用、心理咨询等社会领域。
- 输出格式:51.85% 的提示词要求结构化输出(主要是 JSON 格式),以便于下游数据分析;其余则要求非结构化的叙事文本。
RQ2: 研究人员如何使用角色提示词?
- 模型选择:高度依赖 GPT 系列模型(占模型实例的 76.1%)。跨模型比较(Cross-model comparison)非常罕见,仅 22% 的研究使用了多种模型。
- 提示策略:
- 多提示词策略:62.96% 的研究使用了多个提示词(平均 3.1 个,最多 12 个),形成模块化或级联的工作流(例如:先生成骨架,再扩展描述,最后生成图片)。
- 动态数据插入:74.1% 的提示词插入了动态数据或变量(如 RAG 技术),实现了“计算角色”的雏形。
- 角色设定:部分提示词为 LLM 设定了“助手”或“评估者”的角色,而非让 LLM 直接扮演角色本身。
- 透明度:仅 29.63% 的文章披露了超参数设置,表明许多研究可能直接使用默认设置。
RQ3: 生成的角色具有什么特征?
- 内容格式:
- 文本是绝对主导(96.3%),数字次之(66.7%)。
- 图像生成极其罕见(仅 7.41%),这与传统角色包含图像的做法形成鲜明对比。
- 大多数角色是“文本 + 数字”的组合。
- 角色数量:大多数提示词(70.6%)仅要求生成单个角色,而非代表用户群体的多样化角色集。
- 信息丰富度:
- 平均每个角色包含 5.48 个信息属性。
- 相比传统数据驱动角色模板(平均 8.83 个属性),LLM 生成的角色信息量减少了约 38%。
- 大多数角色被归类为“简单(Simple)”复杂度(4-7 个属性)。
- 属性类别:
- 人口统计学信息(Demographics) 是最主要的类别(占 52.0%,如年龄、姓名、职业、性别),出现在 77.78% 的提示词中。
- 行为、态度和上下文信息也有一定比例,但远少于人口统计学信息。
- 长度控制:许多提示词明确要求简短(如“限制在 30 词以内”),这与传统角色设计追求“丰富、详尽、立体”的原则相悖。
5. 研究意义与讨论 (Significance & Discussion)
理论意义
- 传统与技术的融合与冲突:LLM 生成角色继承了传统角色的人口统计学和行为属性,但在信息丰富度和叙事深度上有所退步。
- 从叙事到数据对象:频繁使用 JSON 等结构化输出表明,研究人员正将角色视为数据对象而非用于建立同理心的叙事工具。
- 单一性与多样性风险:过度依赖生成单个角色和单一模型(GPT),可能无法捕捉用户群体的多样性,导致表征偏差。
实践建议
- 坚持数据驱动:必须将真实用户数据(聚合或个体级别)嵌入提示词,避免 LLM 仅凭“内部知识”凭空创造角色,防止幻觉和刻板印象。
- 深化角色理论:研究人员应更深入地理解角色理论(如同理心构建、代表性),避免提示词设计过于“浅层”。
- 系统评估:随着多提示词级联系统的出现,评估难度增加。需要开发针对复杂提示链和整体系统的评估方法,而不仅仅是评估单个提示词。
局限性与未来工作
- 该领域发展迅速,结论可能随时间过时。
- 目前缺乏提示词设计与输出质量之间的实证因果关系证据。
- 未来研究需进一步探讨算法公平性(Guardrails)在提示词设计中的具体应用。
总结:该论文揭示了 LLM 在用户表征领域的快速应用现状,指出了当前实践中存在的“重效率轻深度”、“重数据轻叙事”以及“缺乏多样性”的倾向,呼吁研究界建立更严谨的提示词设计规范和评估体系,以确保 AI 生成的角色既能发挥计算优势,又能忠实、全面地代表真实用户。