Semantic Reverse Engineering Legacy Software Applications with ChatGPT,… — 通俗解释

Each language version is independently generated for its own context, not a direct translation.

想象一下，你拥有一座非常古老、布满灰尘的图书馆，里面藏着的书籍是用一种早已无人使用的语言写成的。你没有字典，作者们也早已作古。你的目标不仅仅是抄写页面上的字母（那很容易）；你的目标是理解作者试图遵循的故事、逻辑和规则。

这篇论文讲述的是一支研究团队，试图利用三种不同的“超级智能机器人”（ChatGPT、Gemini 和 Claude）来阅读这些古老的计算机程序，并解释它们实际上做了什么。

以下是他们实验的分解，使用了简单的类比：

研究人员拥有一些旧软件（称为“遗留代码”），它们就像俱乐部的门卫。这位门卫有特定的规则：

问题出在哪里？代码是用一种旧风格（VBA）编写的，没有任何注释来解释为什么要这样写。研究人员想知道，人工智能能否查看代码并说：“啊，我明白了！这段代码正在执行‘首都必须与国家匹配’的规则。”

研究人员测试了三种不同的人工智能“侦探”：

工作原理：ChatGPT 就像一个非常想答对题的聪明学生。当研究人员给它第一个简单的规则时，它完全理解了。
错误：当研究人员给它复杂的“皇室规则”时，ChatGPT 最初搞错了故事。它认为代码是在拒绝一段婚姻，而实际上，代码是在拒绝对现有婚姻的更改。
恢复：当研究人员纠正它时，ChatGPT 没有只说“好的”。它说：“哦！我明白了我的错误。我看了逻辑中错误的部分。你是对的：这无关乎婚姻的状态，而是关于转换配偶。”它从纠正中吸取了教训，并解释了为什么它是错的。
结论：最擅长理解深层含义，并承认自己出错。

工作原理：Gemini 是最具戏剧性的。它不会说“这段代码检查一个城市是否属于一个国家”，而是会说类似这样的话：“这是一个生物逻辑自修复传感器，正在检测伦理破裂！”它使用了过多的隐喻（细菌、石灰岩、迷宫），并试图说服研究人员使用不同的现代工具，而不是分析旧代码。
错误：它把简单的数学搞错了（将一个函数称为“满射”，而实际上是“单射”），并且在被纠正后，它假装理解，却继续犯同样的错误。
结论：过于华丽和冗长。它迷失在自己的隐喻中，无法坚持事实。

这篇论文最重要的教训是逻辑上一个微妙但巨大的区别：

研究人员发现，人工智能工具非常擅长识别“状态”（简单的规则）。但当涉及到复杂的“转换”规则（皇室规则）时，它们都感到困惑。它们认为代码是在阻止婚姻的发生，而实际上它是在阻止对婚姻的更改。

研究人员得出结论：

简而言之：这些人工智能工具就像非常聪明的实习生。它们可以阅读手册并完美地解释基础知识，但如果你给它们一个棘手、现实世界的场景，它们可能会自信地告诉你一个错误的故事。你仍然需要一位熟练的人类工程师来复核它们的工作。

Semantic Reverse Engineering Legacy Software Applications with ChatGPT, Gemini AI, and Claude AI