Automated Coding of Communications in Collaborative Problem-solving Tasks Using ChatGPT

该研究基于五个数据集和两种编码框架,证实了 ChatGPT 在协作问题解决沟通数据的自动化编码方面具有可行性,但指出其表现受模型版本、编码框架及任务特征影响,且通过反馈优化提示词的效果并不稳定。

Jiangang Hao, Wenju Cui, Patrick Kyllonen, Emily Kerzabi, Lei Liu, Michael Flor

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在探讨一个现代教育界的“大难题”:如何给一群学生“一起解决问题”的过程打分?

想象一下,你正在看一场激烈的足球比赛(这就是“协作解决问题”)。裁判(也就是研究者)需要记录每个球员说了什么、做了什么,来判断他们配合得好不好。以前,这需要雇佣一大群“人工裁判”坐在屏幕前,逐字逐句地听、逐条逐句地记,既累人又贵,而且速度慢得像蜗牛。

这篇论文的核心故事就是:我们能不能请一位“超级 AI 裁判”(ChatGPT)来代替人工,自动给这些聊天记录打分?

以下是用大白话和生动的比喻对这篇论文的详细解读:

1. 核心任务:让 AI 当“阅卷老师”

  • 背景:现在的教育非常看重“协作能力”(比如大家一起做项目、一起解题)。要评估这种能力,必须分析学生之间的聊天记录。
  • 痛点:以前靠人看,太慢了。就像让一个人去数大海里有多少滴水,根本数不过来。
  • 尝试:研究人员找了 5 个不同的“协作任务”(有的像科学实验,有的像商业谈判),让 ChatGPT 去读聊天记录,然后给每句话贴上标签(比如:“他在分享观点”、“他在吵架”、“他在鼓励队友”)。

2. 实验过程:选谁当裁判?

研究人员像挑选运动员一样,测试了四种不同版本的 ChatGPT:

  • GPT-4 / GPT-4o:老牌强者,经验丰富。
  • GPT-o1-mini / GPT-o3-mini:新出的“天才少年”,号称推理能力超强,能像人类一样“深思熟虑”。

结果让人意外:
大家以为那个“天才少年”(o1 系列)会表现最好,毕竟它更聪明、更贵。但结果发现,老牌的 GPT-4o 反而干得最好! 那些需要“深度思考”的新模型,在处理这种简单的“分类打标签”工作时,并没有比老模型强,甚至有点“杀鸡用牛刀”,反而没优势。

3. 遇到的挑战:为什么有时候 AI 会“翻车”?

研究发现,AI 的表现取决于两个主要因素,就像厨师做菜

  • 因素一:菜谱(评分标准)难不难?

    • 研究人员用了两套“菜谱”(评分标准)。
    • 菜谱 A(理论派):定义很抽象,像“调节问题解决”这种词,很学术。AI 读起来很晕,经常猜错。
    • 菜谱 B(实战派):定义很具体,像“保持沟通”、“分享信息”,有具体例子。AI 读起来很顺,表现甚至和真人裁判一样好。
    • 比喻:如果菜谱写的是“做出有灵魂的味道”,AI 会懵;如果写的是“加两勺盐,炒三分钟”,AI 就能完美执行。
  • 因素二:食材(聊天内容)专不专业?

    • 在两个科学任务(火山爆发、冷凝水)中,学生用了很多专业术语(比如“岩浆”、“分子运动”)。
    • AI 在这些专业词汇上容易“卡壳”,表现不如在普通聊天(比如选公寓、谈判)中好。
    • 比喻:让一个只学过普通菜谱的厨师去处理“深海稀有鱼类”,他可能会手忙脚乱;但处理“家常土豆丝”时,他就能做得很好。

4. 改进尝试:给 AI 开“小灶”

研究人员发现 AI 在某些地方老出错,于是想了一个办法:“错题本”策略

  • 做法:把 AI 之前标错的地方挑出来,告诉它:“看,这句话你标错了,应该是这个意思,下次注意。”
  • 结果
    • 在“火山任务”中,这招很管用,AI 的准确率提升了。
    • 在“冷凝水任务”中,这招没用,甚至有点帮倒忙。
    • 比喻:这就像给学生补课。有的学生一点就通(火山任务),有的学生越补越乱(冷凝水任务)。

5. 结论与启示:AI 能完全取代人类吗?

答案是:还不能完全取代,但它是超级助手。

  • 好消息:在合适的条件下(菜谱简单、内容通俗),AI 打分的准确度已经能和人类专家媲美,甚至更稳定。这能帮教育界省下巨额的人力成本,让大规模评估成为可能。
  • 坏消息
    1. 不是越新的模型越好:别盲目追求最新、最贵的 AI,有时候“老练”的模型更划算。
    2. 标准要清晰:如果你给 AI 的指令(菜谱)太模糊,它就干不好。
    3. 不能完全放心:AI 偶尔还是会“幻觉”或出错,特别是在复杂的、充满人情味的对话中。

总结

这篇论文告诉我们:ChatGPT 已经可以胜任“协作能力评估”中的大部分粗活和细活了。 它就像是一个不知疲倦、速度极快的“初级裁判”。

未来的场景可能是:AI 负责处理 90% 的聊天记录,快速给出初步评分;人类专家只需要像“总裁判”一样,抽查那 10% 最复杂、最模糊的案例。这样,我们就能以前所未有的速度和规模,去评估和培养孩子们的协作能力了。