CircuitSense: A Hierarchical MLLM Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process

Each language version is independently generated for its own context, not a direct translation.

1. 핵심 비유: "레고 조립 설명서" vs "수학 공식"

생각해 보세요. 여러분이 레고를 조립할 때 설명서 (회로도) 를 보고 부품을 찾는 것은 쉽습니다. "여기에 빨간색 블록이 있고, 저기에 파란색 블록이 있구나"라고 말하는 건 AI 도 잘합니다.

하지만 이 논문이 말하려는 것은 다릅니다.

"설명서를 보고 이 레고 구조물이 왜 이렇게 움직이는지, 어떤 물리 법칙 (수학 공식) 을 따르는지 설명해 줄 수 있니?"

지금까지의 AI 는 설명서 (그림) 를 보고 부품을 찾는 것 (Perception) 은 85% 이상 잘하지만, **왜 그렇게 작동하는지 수학적 원리를 도출하는 것 (Symbolic Reasoning)**은 19% 미만에 그칩니다. 마치 레고 조립은 잘하는데, 그 기계가 어떻게 에너지를 변환하는지 물리 공식을 써내지 못하는 것과 같습니다.

2. CircuitSense 란 무엇인가? (새로운 시험지)

연구팀이 만든 CircuitSense는 AI 의 회로 이해 능력을 3 단계로 시험합니다.

눈 (Perception): "이 그림에 저항이 몇 개 있고, 트랜지스터는 어디에 있니?" (그림을 보는 능력)
머리 (Analysis): "이 회로의 입력과 출력 관계를 수식으로 표현해 봐." (그림을 수학으로 번역하는 능력)
손 (Design): "이 성능을 내는 회로를 직접 설계해 봐." (수식을 바탕으로 새로운 것을 만드는 능력)

이 시험지는 8,000 개가 넘는 문제로 구성되어 있으며, 단순한 부품 나열부터 복잡한 시스템 전체의 블록도까지 다양한 난이도로 이루어져 있습니다.

3. 주요 발견: AI 의 '눈'은 밝지만 '두뇌'는 약하다

연구팀은 최신 AI 모델 8 개를 이 시험지에 풀어보게 했습니다. 결과는 놀라웠습니다.

눈 (그림 보기): AI 는 그림을 아주 잘 봅니다. "여기에 커패시터가 있네"라고 90% 이상 정확히 맞춥니다.
두뇌 (수학 풀기): 하지만 그림을 보고 "이 회로의 전압 이득 공식은 $A = \frac{R2}{R1}$ $A = \frac{R 2}{R 1}$ 이야"라고 유도해 내기는 거의 실패합니다.
- 마치 번역기가 단어는 잘 맞추는데, 문장의 논리적 흐름이나 숨은 의미를 전혀 못 알아채는 것과 비슷합니다.
- 특히, AI 는 이전에 본 문제의 답을 외워서 맞추는 것 (패턴 매칭) 은 잘하지만, 처음 보는 새로운 회로를 보고 수식을 직접 만들어내는 능력은 매우 부족합니다.

4. 왜 이것이 중요한가? (엔지니어링의 핵심)

전기 공학에서 회로 도면은 단순한 그림이 아닙니다. 그것은 수학적 언어로 쓰인 설계도입니다.

비유: 건축가가 건물의 그림을 보고 "이 기둥이 무너지지 않으려면 얼마나 두꺼워야 할지" 계산하는 것과 같습니다.
문제점: 지금의 AI 는 그림을 보고 "아, 이 기둥이 있네"라고 말은 하지만, **"이 기둥이 무너지면 전체 건물이 어떻게 붕괴될지"**를 수학적으로 예측하지 못합니다.
결과: AI 가 진정한 엔지니어링 도구가 되려면, 단순히 그림을 인식하는 것을 넘어 수학적 추론 (Symbolic Reasoning) 능력을 갖춰야 합니다. 이 논문은 바로 그 '결핍된 능력'을 측정하고 개선 방향을 제시합니다.

5. 결론: AI 는 아직 '수학자'가 아니다

이 논문의 결론은 명확합니다.

"AI 는 그림을 보는 눈은 이미 프로급이지만, 공학적 문제를 해결하는 수학적 두뇌는 아직 초보 수준이다."

AI 가 진정한 엔지니어링 파트너가 되려면, 단순히 "이게 뭐야?"라고 대답하는 것을 넘어, "왜 이렇게 작동하고, 어떻게 계산되는지"를 스스로 증명할 수 있어야 합니다. CircuitSense 는 바로 그 능력을 검증하기 위한 첫걸음입니다.

한 줄 요약:
"AI 는 전기 회로 그림을 잘 보고 부품을 찾아내지만, 그 그림을 보고 수학 공식으로 설명하는 능력은 아직 매우 부족하다는 것을 밝혀낸 새로운 연구입니다."

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

공학적 설계의 본질: 공학 설계는 시스템 명세에서 구성 요소 구현에 이르기까지 계층적 추상화 (Hierarchical Abstraction) 를 통해 이루어집니다. 특히 아날로그 회로 설계에서는 회로도 (Visual Schematics) 를 수학적 모델 (전달 함수, 노드 방정식 등) 로 변환하는 시각 - 수학적 추론 (Visual-to-Mathematical Reasoning) 능력이 핵심입니다.
MLLM 의 한계: 멀티모달 대형 언어 모델 (MLLM) 은 자연 이미지 인식이나 단순한 시각적 질문 답변에서는 뛰어난 성능을 보이지만, 기술 도면에서 상징적 수식 (Symbolic Equations) 을 유도하는 능력은 여전히 검증되지 않았습니다.
기존 벤치마크의 부족: 기존 회로 관련 벤치마크 (CIRCUIT, EEE-Bench 등) 는 주로 구성 요소 인식, 단순 객관식 문제, 또는 shallow 한 수치 계산을 평가하는 데 그쳤습니다. 다양한 계층 (시스템 블록도 $\leftrightarrow$ 트랜지스터 레벨 회로도) 을 아우르며 수학적 관계를 추출하는 근본적인 능력을 평가하는 도구가 부재했습니다.
핵심 문제: AI 가 회로를 진정으로 이해하는지, 아니면 단순히 시각적 패턴을 암기하고 있는지 구분할 수 있는 평가 기준이 없으며, 이로 인해 AI 가 엔지니어링 도구로서 실제 설계 사이클을 가속화할 수 있는지 판단하기 어렵습니다.

2. 제안 방법론 (Methodology)

저자들은 CircuitSense라는 새로운 벤치마크를 제안하며, 이는 다음과 같은 방법론을 기반으로 합니다.

가. 계층적 합성 생성 파이프라인 (Hierarchical Synthetic Generation Pipeline)

데이터 오염 (Dataset Contamination) 을 방지하고 정확한 정답 (Ground Truth) 을 보장하기 위해 두 가지 합성 생성기를 개발했습니다.

회로도 생성기 (Circuit Schematic Generator):
- MAPS 프레임워크를 확장하여 저항, RLC, 제어 소스, 이상적 연산증폭기 등 18 가지 구성 요소를 지원합니다.
- 격자 (Grid) 기반 토폴로지를 생성하고 SPICE 호환 네트리스트를 변환합니다.
- Lcapy 라이브러리를 사용하여 수정된 노드 분석 (Modified Nodal Analysis) 기반의 정확한 전달 함수 $H(s)$ 및 노드 방정식을 자동으로 유도합니다.
블록 다이어그램 생성기 (Block Diagram Generator):
- 제어 시스템의 블록 다이어그램을 생성하며, 피드백/피드포워드 루프를 포함합니다.
- **Mason 의 이득 공식 (Mason's Gain Formula)**을 적용하여 복잡한 계층적 시스템의 전체 전달 함수를 기호적으로 계산합니다.

나. 벤치마크 구성 (Benchmark Structure)

총 8,006 개 이상의 문제로 구성되며, 공학 워크플로우를 반영한 3 가지 작업 카테고리와 6 단계의 계층 수준을 가집니다.

작업 카테고리:
1. Perception (지각): 구성 요소 탐지, 연결 식별, 기능 분류.
2. Analysis (분석): 주파수 응답, 과도 응답, 전달 함수 유도, 소신호 분석 등 (가장 많은 비중 차지).
3. Design (설계): 회로도 레벨, 블록 레벨, 계층적 설계 문제.
계층 수준 (Hierarchy Levels):
- Level 0 (저항 네트워크) $\rightarrow$ Level 5 (시스템 블록 다이어그램) 까지 6 단계로 세분화되어 복잡도가 증가함에 따라 시각 - 수학적 변환의 실패 지점을 정밀하게 분석합니다.
데이터 구성: 교과서 및 대학 강의 자료에서 선별한 2,986 개 (Curated) 문제와 위 파이프라인을 통해 생성된 5,020 개 (Synthetic) 문제로 구성됩니다.

다. 평가 프레임워크

기호적 비교 (Symbolic Comparison): SymPy 를 사용하여 모델의 출력과 정답을 기호적으로 단순화하고 대수적으로 동등한지 검증합니다. (문자열 매칭이 아닌 수학적 동치성 확인)
시뮬레이션 검증: 설계 과제의 경우 Ngspice 와 Skywater 130nm PDK 를 사용하여 회로 시뮬레이션을 통해 성능을 검증합니다.

3. 주요 기여 (Key Contributions)

최초의 다계층 시각 - 분석 벤치마크: 시스템 레벨 블록도부터 구성 요소 레벨 회로도까지 공학적 추상화 수준 전반을 평가하는 첫 번째 벤치마크를 제시했습니다.
계층적 합성 생성 파이프라인: 기호적 정답이 보장된 새로운 회로와 블록 다이어그램을 생성하는 도구를 공개하여, 데이터 오염 없이 순수한 추론 능력을 평가할 수 있게 했습니다.
광범위한 성능 분석: 8 가지 최신 MLM(클로즈드 소스 및 오픈 소스 포함) 에 대한 체계적인 평가를 통해, 시각적 인식과 수학적 추론 사이의 심각한 격차를 규명했습니다.

4. 실험 결과 (Results)

8 개의 SOTA 모델 (Gemini-2.5-Pro, GPT-4o, Claude-Sonnet-4 등) 을 CircuitSense 에서 평가한 결과는 다음과 같습니다.

지각 (Perception) vs. 분석 (Analysis) 격차:
- 지각 작업: 클로즈드 소스 모델 (GPT-4o, Gemini-2.5-Pro) 은 구성 요소 인식 및 토폴로지 식별에서 85% 이상의 높은 정확도를 보였습니다.
- 분석 작업 (기호 유도): 동일한 모델들이 시각 입력에서 수학적 식을 유도하는 작업에서는 19% 미만으로 급격히 떨어졌습니다. 이는 시각적 파싱과 기호적 추론 사이의 치명적인 격차를 보여줍니다.
합성 데이터 vs. 선별 데이터:
- 객관식 (Multiple Choice) 형태에서는 모델들이 정답을 유추하거나 패턴 매칭으로 높은 점수를 얻지만, 개방형 (Open-ended) 및 합성 데이터에서는 성능이 붕괴되었습니다. (예: Gemini-2.5-Pro 는 객관식 80% $\rightarrow$ 합성 데이터 19% 로 하락)
설계 (Design) 능력:
- 추상적인 블록 레벨 설계보다 구체적인 회로도 레벨 설계에서의 성능이 현저히 낮았습니다.
- 상관관계: 기호적 추론 (식 유도) 능력이 높은 모델일수록 설계 작업에서도 높은 성능을 보였습니다. 이는 수학적 이해가 회로 합성의 필수 전제 조건임을 시사합니다.
실패 원인 분석:
- 모델들은 회로 구성 요소를 식별할 수 있지만, 출력 임피던스 유도나 복잡한 대수적 조작에서 실패했습니다. 특히 Mason 의 이득 공식 적용 시 복잡한 유리 함수 (Rational Functions) 를 다룰 때 오류가 발생했습니다.

5. 의의 및 결론 (Significance & Conclusion)

엔지니어링 AI 의 현재 상태: 현재 MLLM 은 공학적 설계의 '시각적 인식' 단계에서는 유용할 수 있으나, 설계의 핵심인 '수학적 모델링 및 추론' 단계에서는 인간 엔지니어를 대체하거나 보조할 수준에 도달하지 못했습니다.
향후 방향: 단순히 시각적 이해를 넘어 대수적 추론 (Algebraic Reasoning) 능력을 강화하는 것이 공학용 AI 개발의 핵심 과제임을 강조합니다.
공헌: CircuitSense 는 AI 가 실제 엔지니어링 도구로서 활용 가능한지 판단할 수 있는 엄격한 기준을 제공하며, 향후 모델 개발 및 평가에 중요한 벤치마크로 자리 잡을 것으로 기대됩니다.

이 논문은 AI 가 복잡한 공학 문제를 해결하기 위해서는 단순한 패턴 인식을 넘어, 시각 정보를 수학적 형식으로 변환하는 근본적인 추론 능력이 필수적임을 강력하게 주장하고 있습니다.