Theory of Code Space: Do Code Agents Understand Software Architecture?

该论文提出了“代码空间理论”(ToCS)基准,通过让 AI 代理在部分可观测条件下探索程序化生成的代码库并维护结构化信念状态,揭示了不同大模型在主动探索能力、信念自我支撑机制以及信念稳定性方面存在显著差异,表明当前代理在构建和维护软件架构理解方面仍面临挑战。

Grigory Sapunov

发布于 Mon, 09 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给现在的 AI 编程助手做一场"深度体检",看看它们到底是不是真的“懂”代码,还是只是在“背”代码。

作者发现了一个有趣的现象:现在的 AI 写代码很厉害,但一旦面对一个由几十个文件组成的复杂项目,它们就容易“迷路”或者“精神分裂”。

为了解决这个问题,作者发明了一个叫 TOCS(代码空间理论)的测试工具。下面我用几个生活中的比喻来解释这篇论文的核心内容:

1. 核心问题:AI 是“导游”还是“游客”?

想象一下,你要去一个陌生的城市旅游。

  • 以前的测试:就像给 AI 一张完整的地图,然后问它:“从 A 到 B 怎么走?”AI 答对了,我们就觉得它很聪明。
  • 现实情况:在真实的软件开发中,没有现成的地图。你需要自己一个个打开文件(就像在城市里一个个街区探索),去搞清楚这个模块是干嘛的,那个模块和谁有联系。
  • TOCS 的测试:它把 AI 扔进一个没有地图的迷宫(代码库)。AI 手里只有有限的“步数”(预算),它必须决定先打开哪个文件,再打开哪个。每走几步,AI 就必须停下来,画一张草图(JSON 格式),告诉考官:“我现在觉得这个迷宫的结构是这样的……"

2. 三个惊人的发现(就像体检报告)

作者测试了 6 种最先进的 AI 模型,结果发现了三个非常反直觉的现象:

发现一:有的 AI 喜欢“瞎逛”,有的喜欢“看全景”

  • 现象:有些 AI(比如 GPT-5.3)在自己一步步探索时,画出的地图反而比直接给它看所有文件还要好。这就像有些侦探,必须亲自去现场勘查线索,才能理清思路;如果直接把卷宗全堆在它面前,它反而晕了。
  • 反例:但有些 AI(比如 Gemini 2.5 Flash)完全相反。让它自己一步步找,它反而画不好图;给它看所有文件,它反而画得更好。这说明“主动探索”这个能力,并不是所有 AI 都天生具备的。

发现二:有的 AI 会“自我强化”,有的会“自我干扰”

  • 比喻:测试中,AI 每走几步就要画一张草图。
    • GPT-5.3 把之前的草图留在手边(作为“草稿纸”),这就像给它一个脚手架。它看着自己之前画的图,能更好地理解接下来的路,越画越清晰。
    • Gemini 2.5 Pro 却不一样。它把之前的草图留在手边,反而让它更糊涂了。它看着之前的图,好像把新信息给忘了,甚至把之前画对的部分给擦掉了。
  • 结论:让 AI“记住”自己之前的思考,对有的模型是神助攻,对有的模型却是毒药。

发现三:越大的模型,越容易“失忆”

  • 最惊人的对比
    • 小模型(Gemini 2.5 Flash):虽然它个头小,但它非常。每走一步,它画的图都稳稳当当,从不忘记之前发现的东西。
    • 大模型(Gemini 2.5 Pro):它个头大,能力看似更强,但在测试中却出现了灾难性的“失忆”。它可能前 9 步画得很好,第 10 步突然把之前画对的所有关系都忘了,甚至把图给毁了。
  • 启示:模型越大,并不代表它越能“记住”复杂的结构。有时候,小模型反而更专注、更稳定。

3. 这个测试发现了什么“硬伤”?

作者发现,很多 AI 其实看懂了代码,但在汇报的时候出了问题。

  • 比喻:就像你让一个学生去图书馆找书。学生其实把书都找到了(探索行为是对的),但让他写读书笔记(外部化信念)时,他要么写错了书名,要么把两本书的关系搞混了。
  • 原因:很多时候不是 AI“不懂”,而是它不会把脑子里的想法准确地翻译成结构化的语言(比如 JSON 格式)。

4. 这对未来意味着什么?

这篇论文告诉我们,未来的 AI 编程助手不能只靠“猜”或者“背代码”。我们需要:

  1. 教 AI 学会“画地图”:不仅要会写代码,还要能随时整理出项目的结构图。
  2. 给 AI 配个“记事本”:让 AI 学会利用自己之前的思考来辅助现在的思考(就像 GPT 那样)。
  3. 别盲目迷信大模型:在处理复杂架构时,有时候小模型反而更靠谱,或者我们需要给大模型换一种“思考方式”。

总结

这篇论文就像给 AI 界敲了一记警钟:现在的 AI 在写代码片段时是天才,但在理解整个软件大厦的结构时,还是个容易迷路、容易失忆的“新手”

作者把这套测试工具(TOCS)开源了,就像把“迷宫地图”和“评分标准”公开给大家,希望未来的 AI 能真正学会像人类工程师一样,去构建和维护复杂的软件世界。