An Empirical Study of Interaction Smells in Multi-Turn Human-LLM Collaborative Code Generation

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给人工智能（AI）和人类程序员“谈恋爱”的过程做体检。

以前，我们觉得 AI 写代码很厉害，就像是一个才华横溢的“速记员”，你给它一个指令，它就能立刻写出一段完美的代码。但现在的编程不再是“一问一答”了，而是变成了多轮对话：你给个想法，AI 写个初稿；你指出问题，它修改；你再提新需求，它继续改……

这就好比你和一位新来的实习生一起装修房子。刚开始他干劲十足，但聊着聊着，他就开始“犯迷糊”了。这篇论文就是专门研究这种“迷糊”现象的，他们称之为**“交互异味”（Interaction Smells）**。

下面我用几个生活中的比喻，带你轻松读懂这篇论文的核心内容：

1. 什么是“交互异味”？（The Problem）

想象一下，你让实习生（AI）帮你写一个软件，你们聊了十几轮。在这个过程中，AI 经常犯一些让人抓狂的错误，论文把这些错误分成了三大类：

第一类：你说话没讲清楚（用户意图质量差）
- 比喻：你让实习生“把那个东西修好”，但没说清楚是修水管还是修电路。AI 猜错了，修了电路，结果水管爆了。
- 论文术语：指令模糊（Ambiguous Instruction）、指令不完整（Incomplete Instruction）。
第二类：AI 忘了你之前的“死命令”（历史指令不遵守）
- 比喻：你第一天就强调：“绝对不能用红色的砖头，必须用蓝色的！”结果聊到第十轮，AI 突然给你砌了一面红砖墙，完全忘了你之前的规矩。
- 论文术语：必须做却漏做了（Must-Do Omit）、禁止做却做了（Must-Not Violate）。这是最常见的问题！
第三类：AI 自己打脸（历史回复违规）
- 比喻：
  - 前后矛盾：第一轮你说“这个功能用 A 方法”，AI 说“好的”。第二轮你问同样的问题，它突然说“其实 A 方法不行，得用 B 方法”，完全忘了自己刚才说的话。
  - 功能倒退：你让 AI 给衣服加个口袋，它加上了，结果把原来的袖子给剪没了。
  - 原地踏步：你问它一个新问题，它却把上一轮的回答原封不动地复制粘贴给你，好像没听见你说话一样。
- 论文术语：签名不匹配、跨轮不一致、功能破坏、代码回滚、重复回复。

2. 他们做了什么研究？（The Study）

作者们像侦探一样，从互联网上抓取了6 万多个真实的“人 AI 对话”记录（就像收集了 6 万份装修日记），然后人工去分析这些对话。

建立“病历本”：他们给这些错误起了名字，整理出了一套分类标准（Taxonomy），把上面提到的那些“迷糊”行为都归了类。
给 AI 做“大考”：他们选了 6 个目前最厉害的 AI 模型（包括 GPT-4o, DeepSeek, Qwen 等），让它们去处理这些多轮对话任务。
发现真相：
- 大家以为 AI 听不懂人话（指令模糊）是主要问题，结果发现不是！
- 真正的大问题是：AI 记性不好，聊着聊着就把你之前的“死命令”给忘了（比如忘了不用红砖，忘了要保留 HTML 格式）。
- 而且，AI 还特别喜欢**“自杀式修改”**，为了改一个小 bug，把原本好的功能给改坏了。

3. 他们怎么解决？（The Solution: InCE）

既然知道了 AI 是“记性差”和“容易冲动”，作者们设计了一个**“超级管家”系统**，叫 InCE。

这个系统就像给 AI 配了一个**“老练的项目经理”**，在 AI 干活之前和干活过程中做两件事：

提取“不变量”（Invariant Extraction）：
- 比喻：项目经理会把你们聊了 10 轮后，那些绝对不能变的原则（比如：必须用蓝色砖头、必须保留 HTML 格式）单独拎出来，写在小黑板上，贴在 AI 眼前。不管聊多深，这个“小黑板”永远在。
- 作用：防止 AI 忘了“死命令”。
预生成“安检”（Proactive Smell Detector）：
- 比喻：在 AI 把代码写出来给你之前，项目经理先偷偷看一眼：“哎，你刚才说要加口袋，但袖子怎么没了？你是不是又犯错了？”
- 作用：在 AI 犯错之前，先把那些“前后矛盾”、“功能破坏”的苗头掐灭。

4. 效果怎么样？（The Result）

经过“超级管家”的辅助，实验结果显示：

任务成功率提高了：AI 终于能听懂你的连环指令，把复杂的任务做完了。
错误减少了：特别是那种“忘了之前的要求”和“把好的改坏”的错误，大幅减少。
不再原地打转：AI 不再重复说废话，对话效率变高了。

总结

这篇论文告诉我们：现在的 AI 写代码，最大的瓶颈不是“智商”不够，而是“情商”和“记性”不够好。 在多轮对话中，它们容易忘记上下文，容易为了迎合新指令而破坏旧逻辑。

作者提出的解决方案，就是给 AI 配一个“外置大脑”，帮它记住核心原则，并在它犯错前拉一把。这就像给一个才华横溢但有点迷糊的实习生，配了一个严谨的导师，这样他们合作起来，才能造出真正完美的软件。

An Empirical Study of Interaction Smells in Multi-Turn Human-LLM Collaborative Code Generation

1. 什么是“交互异味”？（The Problem）

2. 他们做了什么研究？（The Study）

3. 他们怎么解决？（The Solution: InCE）

4. 效果怎么样？（The Result）

总结

1. 研究背景与问题 (Problem)

2. 研究方法 (Methodology)

数据收集与预处理

RQ1：交互异味分类体系构建 (Taxonomy Construction)

RQ2：主流 LLM 的分布评估 (LLM Comparison)

RQ3：缓解策略验证 (Mitigation Strategy)

3. 核心贡献与发现 (Key Contributions & Findings)

A. 建立了首个交互异味分类体系

B. 实证评估结果

C. 缓解框架 InCE 的效果

4. 意义与设计指南 (Significance & Guidelines)

总结

An Empirical Study of Interaction Smells in Multi-Turn Human-LLM Collaborative Code Generation

1. 什么是“交互异味”？（The Problem）

2. 他们做了什么研究？（The Study）

3. 他们怎么解决？（The Solution: InCE）

4. 效果怎么样？（The Result）

总结

1. 研究背景与问题 (Problem)

2. 研究方法 (Methodology)

数据收集与预处理

RQ1：交互异味分类体系构建 (Taxonomy Construction)

RQ2：主流 LLM 的分布评估 (LLM Comparison)

RQ3：缓解策略验证 (Mitigation Strategy)

3. 核心贡献与发现 (Key Contributions & Findings)

A. 建立了首个交互异味分类体系

B. 实证评估结果

C. 缓解框架 InCE 的效果

4. 意义与设计指南 (Significance & Guidelines)

总结

类似论文

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities