Automated Coding of Communication Data Using ChatGPT: Consistency Across Subgroups

该研究通过引入三项子群一致性检验,证实了 ChatGPT 在基于性别和种族/民族群体的协作沟通数据编码中,其表现与人类评分者保持一致,从而验证了其在大规模协作评估中的应用潜力。

Jiangang Hao, Wenju Cui, Patrick Kyllonen, Emily Kerzabi

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章就像是在探讨一个**“超级智能助手”(ChatGPT)能不能公平地给不同人群“打分”**的问题。

想象一下,你正在组织一场大型的比赛,比赛内容是看大家如何团队合作。为了评判谁表现得好,你需要把大家聊天说的话(比如“我想出这个主意”、“我同意你的看法”)分类记录下来。

1. 过去的难题:人工记账太累了

以前,这项工作全靠真人评委来做。

  • 比喻:就像让一群老师去读几千本学生的日记,把每一句话都贴上标签(比如“这是分享信息”、“这是吵架”)。
  • 问题:这太累了,太慢了,而且花钱太多。如果要把这个比赛推广到全国,光靠老师根本忙不过来。

2. 新的尝试:请 AI 来帮忙

现在有了 ChatGPT 这样的超级 AI

  • 比喻:我们给 AI 一本“评分手册”(就像给老师发的培训教材),告诉它:“看到这句话就贴‘分享信息’的标签,看到那句话就贴‘吵架’的标签。”
  • 现状:研究发现,AI 做得确实很快,而且准确率跟真人老师差不多。

3. 核心担忧:AI 会不会有“偏见”?

虽然 AI 很聪明,但大家担心它会不会**“偏心”**。

  • 比喻:AI 是在互联网上“吃”了海量数据长大的。大家担心它会不会因为读到的书里,某种性别(比如男生)或某种种族(比如白人)的话更多,就更擅长理解他们,而误解了女生或少数族裔的话?
  • 后果:如果 AI 对男生更“宽容”,对女生更“苛刻”,那这个比赛就不公平了。

4. 这篇文章做了什么?(三个“公平性检查”)

作者为了搞清楚这个问题,设计了三个**“体检项目”**,专门检查 AI 在不同人群面前是否“一视同仁”:

  • 检查一:AI 和真人老师“步调一致”吗?

    • 比喻:让 AI 和真人老师同时给同一段聊天打分。看看他们在给男生打分时,意见是否一致?在给女生打分时,意见是否也一致?
    • 结果:大部分情况下,AI 和真人老师就像双胞胎,无论面对男生还是女生,他们的看法都很同步。
  • 检查二:AI 的“发挥稳不稳”?

    • 比喻:就像看运动员的稳定性。AI 给男生打分时,是不是忽高忽低?给女生打分时,是不是也很稳定?
    • 结果:AI 的发挥很稳,不会因为对方是男生或女生,就突然变得“神神叨叨”或“乱判”。
  • 检查三:AI 和“第二位老师”的关系,和“两位老师之间”的关系一样吗?

    • 比喻:如果让两个真人老师互相打分,他们的一致性是怎样的?如果让 AI 和第二个真人老师打分,这种一致性在不同人群中有变化吗?
    • 结果:AI 的表现和真人老师之间的表现差不多,没有发现明显的“区别对待”。

5. 发现了一个小插曲(关于“黑人参与者”和“谈判任务”)

在其中一个叫“谈判”的任务中,数据看起来有点奇怪:AI 和真人老师对白人的聊天内容一致性特别高,而对黑人的一致性看起来低了一些

  • 真相:作者发现,这不是因为 AI 对黑人“有偏见”或“看不懂”。
  • 原因:是因为 AI 对白人的聊天内容理解得太好了(好得甚至超过了真人老师之间的默契),把基准线拉得太高,显得黑人组的数据“变低”了。这就像是一个学霸(AI)在白人组里考了 100 分,而在黑人组考了 90 分,看起来差距很大,但其实 90 分也是很高的分数,只是白人组太“卷”了。

6. 结论与提醒

  • 好消息:ChatGPT 在理解不同性别和种族的聊天内容时,确实能做到公平和一致。它有能力成为大规模评估团队合作的得力助手。
  • 坏消息/提醒
    1. 它不是完美的:现在的 AI 还不能完全取代人类老师,最好还是作为**“助手”**,让人类老师做最后的把关。
    2. 任务越难越要小心:在简单的任务里它表现很好,但在特别复杂、充满“潜台词”的谈判中,可能还需要更多研究。
    3. 未来会变:AI 技术更新太快,今天的结论可能明天就需要重新验证。

一句话总结
这项研究告诉我们,ChatGPT 这个“超级助教”在批改不同背景学生的“合作作业”时,目前看来是公平的,没有明显的歧视。这让我们更有信心在未来大规模使用 AI 来评估人们的沟通和合作能力,但同时也提醒我们要保持警惕,不能盲目完全依赖它。