AutoSAM: an Agentic Framework for Automating Input File Generation for the SAM Code with Multi-Modal Retrieval-Augmented Generation

Zaid Abulawi (Department of Nuclear Engineering, Texas A&M University, Nuclear Science and Engineering Division, Argonne National Laboratory), Zavier Ndum Ndum (Department of Nuclear Engineering, Texas A&M University, Nuclear Science and Engineering Division, Argonne National Laboratory), Eric Cervi (Nuclear Science and Engineering Division, Argonne National Laboratory), Rui Hu (Nuclear Science and Engineering Division, Argonne National Laboratory), Yang Liu (Department of Nuclear Engineering, Texas A&M University)

发布于 2026-03-27

📖 1 分钟阅读☕ 轻松阅读

查看于 arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 AutoSAM 的智能系统，它的核心任务是帮核工程师“写代码”，而且是用一种非常聪明的方式：直接读懂工程师的图纸、报告和表格，然后自动把它们变成计算机能运行的模拟程序。

为了让你更容易理解，我们可以把整个过程想象成**“从装修图纸到自动建房”**的故事。

1. 背景：以前是怎么“盖房子”的？（痛点）

想象一下，你是一位核反应堆设计师（就像一位顶级建筑师）。你想让计算机模拟反应堆里的水流和热量，看看它安不安全。

以前的做法（苦力活）：
你手里有一堆乱七八糟的资料：手写的笔记、PDF 里的设计报告、Excel 表格里的数据、还有画着管道走向的图纸。
你需要像抄写员一样，把这些资料里的数字（比如管道多长、水温多少、泵有多大）一个个找出来，然后手动敲进计算机代码里。
- 问题： 这非常耗时（可能要几天甚至几周），而且很容易出错。只要敲错一个数字，整个模拟结果就可能是错的，甚至导致安全隐患。

2. AutoSAM 是什么？（超级助手）

AutoSAM 就像是一个拥有“读心术”和“超级记忆力”的 AI 管家。它不仅能读懂文字，还能看懂图片和图表。

它的名字里有两个关键概念：

SAM： 这是计算机用来模拟核反应堆的“引擎”（就像汽车的发动机）。
Auto： 意思是自动。

AutoSAM 的工作流程（用比喻解释）：

第一步：多模态“阅读”（眼睛和大脑）

以前，AI 只能读懂文字。但 AutoSAM 是个**“全才”**：

它能读PDF 报告（像读小说一样读技术文档）。
它能看工程图纸（像看地图一样看懂管道怎么连）。
它能看Excel 表格（像看清单一样提取数据）。
比喻： 就像你给这个 AI 管家扔了一堆装修图纸、材料清单和施工手册，它不仅能看字，还能看懂图纸上的线条代表什么管子，表格里的数字代表什么尺寸。

第二步：查阅“百科全书”（RAG 技术）

SAM 这个“引擎”的说明书非常专业且复杂，普通的 AI 可能没背过。

AutoSAM 把 SAM 的官方手册（用户指南和理论手册）变成了它的**“随身百科全书”**。
当它不知道某个参数该怎么写时，它会立刻去查这本“百科全书”，而不是瞎编。
比喻： 就像管家在写代码时，手边随时放着 SAM 的“操作说明书”，遇到不懂的术语马上查，确保写的代码符合规范。

第三步：生成“中间草稿”（人机协作的安全网）

这是 AutoSAM 最聪明的地方。它不会直接生成最终的代码，而是先生成一份**“中间草稿”**（一种人类可读的结构化文件）。

比喻： 管家先把整理好的数据列成一张清晰的清单，放在你面前说：“老板，这是我从图纸里提取的数据，您确认一下有没有漏掉的？有没有理解错的地方？”
作用： 如果管家看错了（比如把 10 米看成了 1 米），你可以在它最终写代码之前纠正它。这保证了**“人在回路”**（Human-in-the-loop），即人类专家依然掌握最终决定权，确保安全。

第四步：生成“最终代码”

一旦你确认了草稿，AutoSAM 就会自动把数据填入 SAM 的格式要求中，生成一个可以直接运行的计算机程序。

3. 它做得怎么样？（实验结果）

作者用四个越来越难的“装修任务”来测试这个管家：

单根水管（简单）： 给个 Excel 表格，它完美生成代码，结果准确。
带温度反馈的燃料棒（中等）： 需要理解“温度升高会导致反应变慢”这种物理逻辑，它做到了。
先进快堆核心（困难）： 需要从一张复杂的图片里看出 5 根管道是怎么并联的，再从 PDF 里找数据。它成功把图片变成了代码，图片信息的提取率达到了 100%。
熔盐反应堆实验（极难）： 这是一个巨大的循环系统，有泵、热交换器、管道等。它需要从杂乱的文档和图纸中，把整个系统的连接关系（拓扑结构）完全复原。它成功做到了，并且标出了哪些数据是它“猜”的（假设），哪些是确定的。

数据亮点：

结构化数据（Excel）： 100% 利用，没丢一个数。
PDF 文字： 88% 提取成功（剩下的可能需要人工补漏）。
图片/图纸： 100% 成功提取了所有几何信息。

4. 为什么这很重要？（意义）

解放双手： 工程师不再需要花几周时间做“抄写员”，可以把精力花在更重要的安全分析和设计上。
减少错误： 机器抄写比人抄写更精准，减少了因为手误导致的灾难性后果。
透明可控： 因为它会生成“中间草稿”并标注“假设”，所以人类专家可以清楚地知道 AI 做了什么，哪里是它猜的，哪里是确定的。这符合核工业对安全的高要求。

总结

AutoSAM 就像是一个懂核工程、会看图、会查书、还会写代码的“超级实习生”。

它不会取代核工程师，而是作为工程师的最强辅助。它负责处理繁琐的数据收集和代码编写工作，把工程师从枯燥的“填表”中解放出来，让他们专注于真正的核心设计。同时，它通过“先出草稿、后出代码”的机制，确保了整个过程是安全、透明且可控的。

这就好比以前我们要盖房子，得自己搬砖、和泥、画线；现在有了 AutoSAM，你只需要把设计图给它，它就能帮你把砖搬好、泥和匀、线画直，最后你只需要签个字，房子（模拟程序）就能自动盖好了。

AutoSAM: an Agentic Framework for Automating Input File Generation for the SAM Code with Multi-Modal Retrieval-Augmented Generation

1. 背景：以前是怎么“盖房子”的？（痛点）

2. AutoSAM 是什么？（超级助手）

第一步：多模态“阅读”（眼睛和大脑）

第二步：查阅“百科全书”（RAG 技术）

第三步：生成“中间草稿”（人机协作的安全网）

第四步：生成“最终代码”

3. 它做得怎么样？（实验结果）

4. 为什么这很重要？（意义）

总结

AutoSAM：基于多模态检索增强生成的 SAM 代码输入文件自动化生成智能体框架

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 三大专业化策略

2.2 工作流程

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

AutoSAM: an Agentic Framework for Automating Input File Generation for the SAM Code with Multi-Modal Retrieval-Augmented Generation

1. 背景：以前是怎么“盖房子”的？（痛点）

2. AutoSAM 是什么？（超级助手）

第一步：多模态“阅读”（眼睛和大脑）

第二步：查阅“百科全书”（RAG 技术）

第三步：生成“中间草稿”（人机协作的安全网）

第四步：生成“最终代码”

3. 它做得怎么样？（实验结果）

4. 为什么这很重要？（意义）

总结

AutoSAM：基于多模态检索增强生成的 SAM 代码输入文件自动化生成智能体框架

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 三大专业化策略

2.2 工作流程

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

类似论文

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

When Is Collective Intelligence a Lottery? Multi-Agent Scaling Laws for Memetic Drift in LLMs

Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Formal Semantics for Agentic Tool Protocols: A Process Calculus Approach

Supervising Ralph Wiggum: Exploring a Metacognitive Co-Regulation Agentic AI Loop for Engineering Design