原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性,请参阅原始论文。 阅读完整免责声明
想象一下,你是一家庞大而混乱的图书馆的馆长,每天都有成千上万本书被添加进来。为了保持秩序,图书馆有一条严格的规定:每本新书的书脊上必须贴有特定的标签(例如“新功能”、“错误修复”或“文档”),以便机器人能够自动对它们进行分类、更新目录,并告知访客有哪些新内容。
然而,在现实中,负责添加书籍的人往往无视这些规定。他们潦草地写下诸如“修复了那个问题”或“修改了一些代码”之类的杂乱笔记,导致机器人无法判断这些书属于哪个类别。
本文讲述的是如何训练一个超级聪明的机器人(人工智能)来阅读这些杂乱的笔记并确定正确的标签,而无需先花费数年时间学习成千上万个示例。
问题:杂乱的笔记与严格的规则
在软件开发中,程序员每次保存代码更改时都会编写“提交信息”(即笔记)。业界有一种称为“约定式提交”(Conventional Commits)的标准格式,它充当严格的归档系统。它要求笔记必须以特定的标签开头(例如 feat:、fix:)。
但人类往往不够规范。他们经常忘记添加这些标签。传统上,为了解决这个问题,研究人员会通过向机器人提供成千上万个带标签的示例来构建定制机器人(就像学生背诵教科书一样)。这需要大量的时间和数据。
新方法:“提示”策略
与其从头开始训练一个新机器人,作者们提出了一个问题:我们能否直接给一个非常聪明、已有的 AI 一套指令(即“提示”),让它完成这项工作?
他们将 AI 视为一位博学多才的实习生,它已经掌握了大量语言知识,但需要明确具体要执行什么任务。他们测试了三种不同的指令方式:
零样本(“直接告诉我”方法):
- 类比: 你走到实习生面前说:“这里有一条杂乱的笔记。请根据规则告诉我它属于哪个类别。”你没有提供任何示例。
- 结果: 实习生进行了猜测,但经常出错,因为它不清楚你具体想要什么。
少样本(“给我看示例”方法):
- 类比: 你说:“这里有一条表示‘新功能’的杂乱笔记。这里还有一条表示‘错误修复’的笔记。现在,看看这条新的杂乱笔记,告诉我它是什么。”你先向实习生展示几个清晰的示例。
- 结果: 这种方法效果最好。实习生迅速理解了模式,并准确地对书籍进行了分类。
思维链(“大声思考”方法):
- 类比: 你说:“在给我答案之前,请写下你的逐步推理过程:‘我看到“修复”这个词,所以我认为这是一个错误……'"
- 结果: 令人惊讶的是,这并没有帮助。对于这种标签分类任务,让实习生“大声思考”只是增加了额外步骤,并未改善最终答案。这就像要求图书管理员在将书上架前先写一篇论文;它拖慢了速度,却未提升结果。
竞争者:大脑需要有多大?
研究人员测试了三种不同规模的“实习生”(AI 模型):
- Mistral-7B: 中等规模的大脑(70 亿参数)。
- LLaMA-3-8B: 稍大的大脑(80 亿参数)。
- DeepSeek-R1-32B: 巨型大脑(320 亿参数)。
发现: 更大的大脑胜出。DeepSeek-R1-32B 在解读杂乱笔记并找到正确标签方面最为准确。这表明,对于此类任务,拥有更大、更强大的 AI 模型确实能带来显著差异。
结论
该论文得出结论:你无需从头构建自定义机器学习模型来整理杂乱的软件笔记。相反,你可以使用一个强大的现有 AI,只需给它提供几个好的示例(少样本提示)即可完成工作。
- 最佳策略: 先向 AI 展示几个示例。
- 最佳 AI: 可用的最大、最强大的模型。
- 浪费时间: 让 AI 在回答之前编写冗长的推理过程。
这种方法节省了时间和精力,因为它跳过了收集并标记成千上万个训练示例的需求,让开发人员能够立即自动化其文件整理工作。
您所在领域的论文太多了?
获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。