Circuit Tracing in Vision-Language Models: Understanding the Internal Mechanisms of Multimodal Thinking

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"시각 - 언어 모델 (VLM)"**이라는 인공지능이 어떻게 생각하고 판단하는지 그 내부 작동 원리를 투명하게 파헤친 첫 번째 연구입니다.

기존의 AI 는 "블랙박스 (Black Box)"라고 불렸습니다. 입력을 주면 답이 나오지만, 그 사이에서 무슨 일이 일어났는지 아무도 알 수 없었죠. 이 논문은 그 블랙박스를 열어 **"회로 (Circuit)"**를 찾아내고, 그 회로가 어떻게 작동하는지 설명하는 지도를 그리는 방법을 제시합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

🕵️‍♂️ 1. 연구의 핵심: AI 의 '뇌'를 해부하다

비유: AI 는 거대한 도서관과 같습니다.
기존의 AI 는 책 (데이터) 을 읽어서 답을 내놓지만, 어떤 책의 어떤 페이지를 참조했는지, 어떤 단어를 어떻게 연결했는지 알 수 없었습니다. 이 연구팀은 AI 의 뇌 속에 숨겨진 **'특수한 안경 (Transcoders)'**을 끼워주었습니다.

기존 상태: AI 가 복잡한 생각을 할 때, 수많은 정보가 뒤섞여 있어 (다의적) 무엇을 의미하는지 알기 어려웠습니다.
이 연구의 방법: AI 의 각 층 (Layer) 에 **'분류기 (Transcoder)'**를 설치했습니다. 이 분류기는 뒤죽박죽 섞인 정보를 **"하나의 의미만 가진 깔끔한 개념"**으로 분리해냅니다.
- 예: "사과"라는 단어가 나올 때, 단순히 '과일'로만 인식되던 것을 "빨간색", "동그란 모양", "맛있는 것"처럼 **개별적인 특징 (회로)**으로 쪼개서 보는 것입니다.

🗺️ 2. 어떻게 작동하나요? (3 단계 과정)

이 연구팀은 AI 의 생각을 추적하기 위해 3 가지 단계를 거칩니다.

분류기 설치 (Transcoders):
AI 가 이미지를 보고 텍스트를 생성할 때, 그 과정에서 일어나는 복잡한 신호들을 **하나하나 분리된 '레고 블록'**처럼 정리합니다.
연결 지도 그리기 (Attribution Graph):
"어떤 레고 블록이 다음 단계의 어떤 블록에 영향을 줬는지" 선을 그어 연결합니다. 마치 전류가 흐르는 회로도를 그리는 것처럼, "이 이미지의 '빨간색' 신호가 '사과'라는 단어를 만들었고, 그게 다시 '맛있다'는 결론으로 이어졌다"는 인과관계를 찾아냅니다.
실험과 조작 (Intervention):
찾은 회로를 실제로 건드려 봅니다.
- 조작 (Steering): "빨간색" 회로의 신호를 강하게 키우면 AI 가 '사과' 대신 '토마토'를 말하게 될까요?
- 이식 (Patching): 한 회로 (예: '화성' 이미지) 에서 발견된 패턴을 다른 회로 (예: '지구' 이미지) 에 이식해 보면, AI 가 화성처럼 반응할까요?
- 결과: 네, 실제로 조작하면 AI 의 답변이 바뀝니다. 이는 우리가 찾은 회로가 단순한 추측이 아니라, 실제로 AI 를 움직이는 진짜 원인임을 증명합니다.

🔍 3. 놀라운 발견들 (실제 사례)

이 방법으로 AI 의 뇌를 들여다보니 정말 흥미로운 사실들이 드러났습니다.

🧠 계층적 통합:
AI 의 초기 층은 단순히 "색깔"이나 "모양"만 봅니다. 하지만 **깊은 층 (Layer 20 이상)**에 가면 비로소 "빨간색 + 동그란 것 = 사과"처럼 시각적 정보와 의미 (사과) 가 하나로 합쳐집니다.
🔢 시각적 수학:
"1+2"를 이미지로 보여주면, AI 는 숫자 '3'을 텍스트로 계산하기보다, 이미지 공간 안에서 직접 '3'이라는 모양을 만들어내는 회로를 사용하는 것을 발견했습니다.
🖐️ 환각 (Hallucination) 의 원인:
AI 가 손가락을 6 개로 잘못 세는 경우 (6-Finger Hallucination) 는 단순히 실수가 아닙니다.
- 원인: AI 가 '손'이라는 개념을 너무 강하게 인식하다 보니, '손가락 5 개'라는 회로가 '손'이라는 강력한 신호에 눌려버리고, '6'이라는 숫자 회로가 제대로 작동하지 않아서 발생합니다. 즉, 시각적 인식과 내부 회로의 경쟁에서 생긴 문제입니다.
🚀 별과 우주선:
'화성' 이미지를 보여주면, AI 는 '우주선'이라는 개념을 떠올립니다. 이는 이미지 자체에 우주선이 없어도, AI 내부에 **"화성 = 우주선"**이라는 시각적 연상 회로가 따로 존재하기 때문입니다.

🛠️ 4. 왜 이 연구가 중요한가요?

이 연구는 AI 를 조종할 수 있는 도구를 줍니다.

오류 수정: AI 가 잘못된 정보를 말하면, 그 오류를 일으키는 특정 회로를 찾아서 끄거나 수정할 수 있습니다.
신뢰성 확보: AI 가 왜 그런 결론을 내렸는지 그 '회로도'를 보여줄 수 있으므로, 의료나 자율주행 같은 중요한 분야에서 AI 를 더 신뢰할 수 있게 됩니다.
설계 개선: 앞으로 더 똑똑하고 효율적인 AI 를 만들 때, 어떤 회로가 필요한지 알 수 있게 됩니다.

💡 요약

이 논문은 **"AI 가 어떻게 생각하는지"**를 단순히 추측하는 것을 넘어, 실제 내부 회로를 찾아내고, 그 회로를 조작해 AI 의 행동을 바꾸는 것까지 성공한 획기적인 연구입니다.

마치 자동차 엔진의 내부 구조를 완벽하게 이해하고, 특정 부품을 교체하여 차의 성능을 조절할 수 있게 된 것과 같습니다. 이제 우리는 AI 를 더 투명하고 안전하게 다룰 수 있는 첫걸음을 떼게 되었습니다.

Circuit Tracing in Vision-Language Models: Understanding the Internal Mechanisms of Multimodal Thinking

🕵️‍♂️ 1. 연구의 핵심: AI 의 '뇌'를 해부하다

🗺️ 2. 어떻게 작동하나요? (3 단계 과정)

🔍 3. 놀라운 발견들 (실제 사례)

🛠️ 4. 왜 이 연구가 중요한가요?

💡 요약

논문 개요

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

가. 전송기 (Transcoders) 를 통한 특징 분해

나. 귀속 그래프 (Attribution Graphs) 구축

다. 특징 해석 및 주의 분석 (Feature Interpretation & Attention)

라. 개입 실험 (Intervention & Steering)

3. 주요 기여 (Key Contributions)

4. 주요 결과 및 통찰 (Results & Insights)

5. 의의 및 의의 (Significance)

6. 한계 및 향후 과제

Circuit Tracing in Vision-Language Models: Understanding the Internal Mechanisms of Multimodal Thinking

🕵️‍♂️ 1. 연구의 핵심: AI 의 '뇌'를 해부하다

🗺️ 2. 어떻게 작동하나요? (3 단계 과정)

🔍 3. 놀라운 발견들 (실제 사례)

🛠️ 4. 왜 이 연구가 중요한가요?

💡 요약

논문 개요

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

가. 전송기 (Transcoders) 를 통한 특징 분해

나. 귀속 그래프 (Attribution Graphs) 구축

다. 특징 해석 및 주의 분석 (Feature Interpretation & Attention)

라. 개입 실험 (Intervention & Steering)

3. 주요 기여 (Key Contributions)

4. 주요 결과 및 통찰 (Results & Insights)

5. 의의 및 의의 (Significance)

6. 한계 및 향후 과제

유사한 논문

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems