Building AI Coding Agents for the Terminal: Scaffolding, Harness, Context Engineering, and Lessons Learned

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 OPENDEV 的全新人工智能编程助手。为了让你轻松理解，我们可以把传统的 AI 编程助手想象成坐在你旁边的“副驾驶”，而 OPENDEV 则是一个完全独立、能在你电脑命令行（Terminal）里自由奔跑的“数字工匠”。

以前，AI 只是在你写代码时给你提个建议（比如补全一行代码）；现在，OPENDEV 能直接接管你的电脑终端，像一位经验丰富的老工程师一样，自己去查文件、运行命令、修复 Bug，甚至规划整个项目的架构。

但这带来了一个大问题：如果让 AI 在电脑里乱跑，它可能会不小心删错文件，或者因为“记性不好”（上下文太长）而忘记最初的任务。

为了解决这些问题，作者设计了一套精妙的系统。我们可以用以下五个生动的比喻来理解 OPENDEV 的核心技术：

1. 像“乐高工厂”一样的多模型架构 (Compound AI System)

比喻： 想象 OPENDEV 不是一个只会一种技能的“超级机器人”，而是一个拥有不同工种专家的工厂。

普通工人（Action Model）： 负责干粗活，比如运行命令、修改文件，速度快但不用太聪明。
首席架构师（Thinking Model）： 负责在动手前深思熟虑，规划步骤，不直接碰工具，避免“想一出是一出”。
质检员（Critique Model）： 专门挑刺，检查架构师的计划有没有漏洞。
翻译官（Vision Model）： 专门看截图和图片。
亮点： 系统会根据任务自动调用最合适的“工人”。简单的任务用便宜的“普通工人”，复杂的任务才请昂贵的“首席架构师”。这样既省钱又高效，而且随时可以更换更好的模型，就像换零件一样简单。

2. “双模态”工作流：先画图纸，再盖房子 (Dual-Mode Planning)

比喻： 很多 AI 一上来就急着改代码，结果改错了。OPENDEV 强制实行**“先规划，后执行”**。

规划模式（Plan Mode）： 这时候 AI 是一个**“只读不写”的侦探**。它只能看文件、查资料、分析架构，绝对不能修改任何代码。它会生成一份详细的“施工图纸”（计划文件）。
执行模式（Normal Mode）： 只有当人类用户点头说“好，按这个图纸干”之后，AI 才会切换到“施工队”模式，开始真正修改代码。
亮点： 这就像盖房子前必须先画蓝图，防止 AI 在没想清楚时就乱拆墙。

3. 对抗“健忘症”：智能记忆与提醒 (Context Engineering)

比喻： 人的记忆是有限的，聊得太久就会忘记开头说了什么。AI 也一样，聊了几十轮后，它可能会忘记“我要修那个登录 Bug"这个初衷。

分层记忆（Dual Memory）： OPENDEV 把记忆分成“工作记忆”（最近聊的几句，细节要记清）和“情景记忆”（整个项目的核心目标，定期总结）。
智能提醒（System Reminders）： 就像你手机里的“待办事项”或“闹钟”。当 AI 聊嗨了要忘记任务时，系统会悄悄在对话里插入一条**“用户消息”**（比如：“别忘了，你还有 3 个待办任务没完成！”）。因为 AI 对“用户刚说的话”最敏感，这比冷冰冰的系统提示更有效。
压缩技术（Context Compaction）： 当对话太长时，系统不会把整本“聊天记录”都塞给 AI，而是像整理旧报纸一样，把很久以前的细节压缩成摘要，只保留关键信息，把空间腾出来给新任务。

4. 五层安全网：防止“手滑” (Safety Architecture)

比喻： 让 AI 在电脑里运行命令就像让一个小孩拿着剪刀在房间里跑。OPENDEV 设计了五层安全网，确保它不会把家拆了：

心理防线（Prompt Guardrails）： 在 AI 脑子里就定好规矩：“不许删库”。
工具锁（Schema Gating）： 在规划阶段，直接把“删除文件”的剪刀藏起来，AI 根本看不到这个工具，所以它想删也删不了。
人工确认（Approval System）： 遇到危险操作（如删除文件、重启服务器），必须等你点头确认。
实时检查（Runtime Validation）： 执行前再检查一遍，比如“这个文件刚才被改过吗？如果是，别动，先重新读一下”。
后悔药（Undo & Shadow Git）： 就算 AI 真的改错了，系统会自动记录每一步操作，你可以一键“撤销”（Undo），就像时光倒流一样，瞬间恢复到修改前的状态。

5. 懒加载与按需取物 (Lazy Discovery)

比喻： 想象一个工具箱，里面有 100 种工具。如果每次 AI 开口说话，都把 100 种工具的说明书全塞进它的脑子里，它还没干活就“撑死”了（内存溢出）。

OPENDEV 的做法： 它只给 AI 看工具箱的目录。只有当 AI 说“我需要一把扳手”时，系统才把扳手的说明书递给它。
亮点： 这大大节省了 AI 的“脑力”，让它能处理更复杂、更长的任务。

总结：为什么这很重要？

这篇论文不仅仅是在介绍一个工具，更是在展示如何构建一个可靠、安全且聪明的 AI 工人。

以前： AI 像个只会提建议的实习生，需要你盯着它，它一离开视线就不知道干啥了。
现在（OPENDEV）： 它像一个有经验的工头。它能自己规划、自己检查、自己记性不好时有人提醒、干错事能一键撤销，而且它知道什么时候该用谁（多模型协作）。

对于开发者来说，这意味着你可以把一些繁琐、重复的编程任务（比如修复 Bug、重构代码、写测试）完全交给它，而不用担心它会搞砸。对于普通用户来说，这标志着 AI 从“聊天机器人”正式进化为了能真正干活的“数字员工”。

一句话总结： OPENDEV 给 AI 配上了**“大脑（多模型）”、“图纸（规划模式）”、“记事本（智能记忆）”和“安全带（五层防护）”**，让它终于能在你的电脑里安全、高效地独立工作了。

Building AI Coding Agents for the Terminal: Scaffolding, Harness, Context Engineering, and Lessons Learned

1. 像“乐高工厂”一样的多模型架构 (Compound AI System)

2. “双模态”工作流：先画图纸，再盖房子 (Dual-Mode Planning)

3. 对抗“健忘症”：智能记忆与提醒 (Context Engineering)

4. 五层安全网：防止“手滑” (Safety Architecture)

5. 懒加载与按需取物 (Lazy Discovery)

总结：为什么这很重要？

论文技术总结：构建终端 AI 编程代理——OPENDEV 的架构、工程实践与经验教训

1. 研究背景与问题定义 (Problem)

2. 方法论与系统架构 (Methodology)

2.1 四层系统架构

2.2 关键机制

3. 主要贡献 (Key Contributions)

4. 结果与经验教训 (Results & Lessons Learned)

5. 意义与未来展望 (Significance & Future Directions)

Building AI Coding Agents for the Terminal: Scaffolding, Harness, Context Engineering, and Lessons Learned

1. 像“乐高工厂”一样的多模型架构 (Compound AI System)

2. “双模态”工作流：先画图纸，再盖房子 (Dual-Mode Planning)

3. 对抗“健忘症”：智能记忆与提醒 (Context Engineering)

4. 五层安全网：防止“手滑” (Safety Architecture)

5. 懒加载与按需取物 (Lazy Discovery)

总结：为什么这很重要？

论文技术总结：构建终端 AI 编程代理——OPENDEV 的架构、工程实践与经验教训

1. 研究背景与问题定义 (Problem)

2. 方法论与系统架构 (Methodology)

2.1 四层系统架构

2.2 关键机制

3. 主要贡献 (Key Contributions)

4. 结果与经验教训 (Results & Lessons Learned)

5. 意义与未来展望 (Significance & Future Directions)

类似论文

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems