InsightX Agent: An LMM-based Agentic Framework with Integrated Tools for Reliable X-ray NDT Analysis

本文提出了 InsightX Agent,一种基于大型多模态模型(LMM)的智能体框架,通过协调稀疏变形多尺度检测器(SDMSD)与证据 grounding 反思(EGR)工具,实现了兼具高检测精度、可解释性及自我评估能力的可靠 X 射线无损检测分析。

Jiale Liu, Huan Wang, Yue Zhang, Xiaoyu Luo, Jiaxiang Hu, Zhiliang Liu, Min Xie

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 INSIGHTX AGENT 的新系统,它的任务是帮人类用 X 光检查工业零件(比如汽车零件、铸件)里的缺陷。

为了让你更容易理解,我们可以把传统的 AI 检查系统和这个新系统做一个生动的对比:

1. 传统 AI 的困境:像是一个“只会报坐标的哑巴”

以前的工业 AI 系统,就像是一个只会做数学题但不会说话的学生

  • 它做了什么:它能在 X 光片上画个框,告诉你“这里有个坏东西”,并给出一个坐标(比如 [233, 171, 261, 205])和一个分数。
  • 它的缺点
    • 黑盒子:它不说为什么觉得这里是坏的。是气孔?是裂纹?还是只是光线太暗?它不知道,也不解释。
    • 死板:如果它看错了(比如把阴影当成了裂纹),它不会自己反思,只会固执地报错。
    • 不互动:工人如果问它“这个裂纹严重吗?”,它答不上来,因为它只是个检测工具,不是助手。

2. INSIGHTX AGENT 是什么?:一位“带专家的超级侦探”

这篇论文提出的 INSIGHTX AGENT,不再是一个简单的检测工具,而是一个拥有“大脑”和“工具箱”的超级侦探

它由三个核心部分组成,我们可以用**“侦探办案”**来比喻:

🕵️‍♂️ 核心大脑:大语言模型 (LMM) —— 聪明的“侦探队长”

这是整个系统的指挥官。它不像以前的 AI 那样只会看图片,它像一位经验丰富的老侦探,懂很多工业知识(比如什么是气孔,什么是裂纹),还能听懂人话,能跟工人聊天。

🔍 工具一:SDMSD(稀疏变形多尺度探测器)—— 敏锐的“鹰眼”

这是侦探的千里眼

  • 它的工作:X 光片里有很多细节,有些缺陷很小,有些很密集。这个工具像鹰眼一样,能在图片的每一个角落(不管是大块还是微小)快速扫描,画出很多可能的“嫌疑点”(缺陷框)。
  • 特点:它看得很全,但有时候会“疑神疑鬼”,把一些正常的阴影也当成缺陷(产生误报)。

🧠 工具二:EGR(基于证据的反思机制)—— 严谨的“法医/审核员”

这是整个系统最厉害的地方!以前的 AI 画完框就完了,但这个系统有一个**“自我反思”**的环节。

  • 它的工作:当“鹰眼”画出一堆嫌疑点后,“侦探队长”会叫来“审核员”(EGR)进行六步审查
    1. 看环境:这张图整体质量怎么样?
    2. 逐个分析:每个嫌疑点真的是缺陷吗?还是只是噪点?
    3. 排除假象:把那些看起来像缺陷其实是光影的“假嫌疑犯”抓出来扔掉。
    4. 重新打分:根据证据的强弱,重新给缺陷的严重程度打分。
    5. 质量检查:确保没有漏掉重要的,也没有乱报。
    6. 生成报告:最后写出一份详细的报告。

🌟 这个系统有多牛?(用大白话总结)

  1. 不仅告诉你“是什么”,还告诉你“为什么”

    • 传统 AI:“这里有个框,坐标是 X,Y,置信度 0.8。”
    • INSIGHTX:“这里有个圆形的气孔(缺陷),因为它在 X 光下显示为黑色圆形区域,边缘清晰,符合气孔特征。虽然它有点小,但我确认了它不是阴影。建议工人重点检查这里。”
    • 比喻:就像你问医生“我哪里疼?”,传统 AI 只给你指个位置,而 INSIGHTX 会告诉你“这里是发炎了,因为红肿且按压痛,建议吃消炎药”。
  2. 它会“自我纠错”,不再乱报

    • 如果“鹰眼”看错了,把两个重叠的框当成两个缺陷,“审核员”会立刻发现:“哎,这两个框其实是同一个东西,别报两次!”然后自动合并或剔除。
    • 比喻:就像你写文章,写完自己读一遍,发现有两句话意思重复,就主动删掉一句,让文章更通顺。
  3. 能跟工人“聊天”

    • 工人可以问:“这个缺陷严重吗?”或者“这个位置以前出过问题吗?”系统能结合它的知识库,给出有根据的回答,而不是冷冰冰的数据。

📊 实验结果怎么样?

研究人员用了一个叫 GDXray+ 的工业 X 光数据集来测试。

  • 准确率:它的综合得分(F1-score)达到了 96.54%,比目前市面上最厉害的几种检测算法都要高。
  • 稳定性:它的表现非常稳定,不像有些 AI 今天准明天不准。
  • 信任度:因为它会解释原因,工人们更愿意相信它的判断,不再觉得它是“黑盒子”。

⚖️ 有什么小缺点?

  • 速度稍慢:因为它要像人一样“思考”和“反思”,所以处理一张图片需要几十秒(传统 AI 可能只要几毫秒)。
  • 适用场景:它不适合那种需要每秒处理几百个零件的“流水线极速安检”,但非常适合高价值、高风险的零件(比如飞机发动机、航天部件)的深度质检。在这些地方,“准”和“解释清楚”比“快”更重要

总结

INSIGHTX AGENT 就像是给工业 X 光检测装上了一个**“会思考、会解释、会反思”的超级大脑**。它不再只是一个冷冰冰的机器,而是一个能辅助人类专家、提高信任度、让工业质检变得更透明、更可靠的智能助手。