CircuitSense: A Hierarchical MLLM Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process

本文提出了名为 CircuitSense 的层次化多模态大模型基准,通过涵盖 8000 多个从感知到设计的全流程电路问题,揭示了当前先进模型在视觉识别任务上表现优异但在从电路图推导符号方程等数学推理能力上存在显著短板,从而确立了符号推理作为评估工程智能核心指标的重要性。

Arman Akbari, Jian Gao, Yifei Zou, Mei Yang, Jinru Duan, Dmitrii Torbunov, Yanzhi Wang, Yihui Ren, Xuan Zhang

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 CircuitSense 的新“考试”,专门用来测试人工智能(AI)在电子电路设计领域的真实水平。

为了让你更容易理解,我们可以把这篇论文的核心内容想象成一场**“从看图纸到造房子”的 AI 能力大考**。

1. 背景:AI 是个“看图高手”,但不是“工程师”

现在的 AI(多模态大模型)非常擅长**“看图说话”**。如果你给它看一张风景照,它能告诉你“这是山,那是水”;如果你给它看一张电路图,它也能认出“这是电阻,那是电容”。

但是,真正的工程师不仅仅是认出零件,他们还需要:

  • 看懂图纸背后的数学逻辑:这个电路到底是怎么工作的?
  • 推导出公式:如果我把这个电阻变大,输出电压会变成多少?能不能写出一个数学公式来描述它?
  • 设计新电路:给我提个要求(比如要一个很稳定的放大器),你能画出一个全新的电路吗?

这篇论文发现,目前的 AI 就像是一个**“只会认字的文盲”:它能认出电路图上画了什么(感知能力很强),但一旦让它去推导背后的数学公式**(符号推理能力),它就彻底“掉链子”了。

2. 核心挑战:CircuitSense 是什么?

作者们觉得现有的测试太简单了,就像只考“认字”不考“写作文”。于是,他们设计了一个全新的、超级难的考试,叫 CircuitSense

这个考试有三个特点:

  • 题目多且难:有 8000 多道题,涵盖了从最简单的电阻网络到复杂的系统级芯片设计。
  • 分层级考试:就像盖房子,从“砖块”(单个晶体管)到“房间”(功能模块),再到“整栋大楼”(整个系统),AI 需要在不同层级间自由切换。
  • 不仅考“认”,更考“算”:最核心的部分是,AI 必须看着电路图,亲手推导出一串复杂的数学公式(比如传递函数),而不是做选择题。

比喻
以前的考试是:给 AI 看一张乐谱,问它“这是钢琴还是小提琴?”(AI 答对率很高)。
现在的 CircuitSense 考试是:给 AI 看一张乐谱,让它现场作曲并写出总谱,还要保证演奏出来没有杂音(AI 答对率极低)。

3. 怎么出题?(防止作弊)

为了让考试公平,防止 AI 靠“死记硬背”题库里的答案来作弊,作者们开发了一套**“自动生成器”**。

  • 这就像是一个**“无限生成乐谱的机器”**。
  • 它能随机生成无数种从未见过的电路图,并且自动算出这道题的标准答案(数学公式)。
  • 这样,AI 就无法通过“背题”来蒙混过关,必须真正理解电路原理才能解题。

4. 考试结果:AI 的“偏科”极其严重

作者测试了目前世界上最先进的 8 款 AI 模型(包括 GPT-4o, Gemini 等),结果非常惊人:

  • 感知任务(认图):AI 表现完美,准确率超过 85%
    • 比喻:让它指认“这是电阻,那是电容”,它像个老练的电工,一眼就能认出来。
  • 分析任务(推导公式):AI 表现灾难,准确率低于 19%
    • 比喻:让它根据电路图写出“电压和电流的关系公式”,它就像个刚入行的实习生,完全不知道从何下手,经常胡编乱造。
  • 设计任务(造电路):AI 在抽象层面(比如画个功能框图)还能凑合,但一旦要落实到具体的元器件尺寸和连接,它就彻底崩溃了。

关键发现
只有那些在“推导公式”上表现稍好一点的 AI,在“设计电路”的任务上才能做得好。这证明了一个道理:在工程领域,不懂数学推导,就永远成不了真正的工程师。

5. 结论与启示

这篇论文告诉我们:

  • 目前的 AI 还很“浅”:它们擅长处理表面的视觉信息,但缺乏深度的逻辑推理和数学建模能力。
  • 工程领域还有很长的路要走:在医疗、建筑、芯片设计等需要严谨数学推导的领域,AI 目前还无法完全替代人类专家。它们更像是一个**“超级助手”,能帮你找资料、画图,但核心的“计算”和“决策”**还得靠人类。
  • 未来的方向:要培养真正的“工程 AI",不能只让它多看图,必须加强它的**“数学大脑”**,让它学会像工程师一样思考,而不仅仅是像摄影师一样看图。

一句话总结
CircuitSense 就像一面照妖镜,照出了当前 AI 在工程领域的“虚胖”——看着什么都会(认图),其实一算就废(推导公式)。要想让 AI 真正帮人类造芯片、设计系统,我们还得先教会它怎么做“数学题”。