Circuit Insights: Towards Interpretability Beyond Activations

이 논문은 기존 활성화 기반 분석의 한계를 극복하고 외부 모델이나 데이터셋 없이도 학습된 가중치와 구성 요소 간 상호작용을 직접 분석하여 기계적 해석 가능성을 확장하는 두 가지 새로운 방법인 WeightLens 와 CircuitLens 를 제안합니다.

Elena Golimblevskaia, Aakriti Jain, Bruno Puri, Ammar Ibrahim, Wojciech Samek, Sebastian Lapuschkin

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (AI) 이 머릿속에서 무슨 생각을 하는지, 어떻게 작동하는지"**를 더 쉽고 정확하게 알아내는 새로운 방법을 제안합니다.

기존의 AI 해석 기술은 마치 **"사람이 말을 할 때 입술이 어떻게 움직이는지 (활성화) 만 관찰"**하는 것과 비슷했습니다. 하지만 이 논문은 **"뇌의 신경 연결 구조 (가중치) 와 회로 (Circuit)"**를 직접 분석하여, AI 가 왜 그런 말을 했는지 더 깊이 이해하려는 시도입니다.

주요 내용을 일상적인 비유로 설명해 드릴게요.


🕵️‍♂️ 문제: AI 는 왜 그렇게 말할까? (기존 방식의 한계)

기존 연구자들은 AI 가 특정 단어를 말할 때, **"어떤 단어가 가장 크게 반응했는지"**만 보았습니다.

  • 비유: 요리사가 요리를 할 때, "이 재료가 많이 들어갔구나"라고만 보고 레시피를 추측하는 것과 같습니다.
  • 문제점: 하지만 재료만 보고는 요리사의 의도나 **비밀 레시피 (회로)**를 알기 어렵습니다. 게다가 이걸 분석하려면 거대한 데이터와 또 다른 AI(설명자) 가 필요해서 비용이 많이 들고, 때로는 엉뚱한 설명이 나오기도 합니다.

💡 해결책: 두 가지 새로운 렌즈 (WeightLens & CircuitLens)

저자들은 AI 의 '뇌 구조'를 직접 들여다보는 두 가지 새로운 도구, **WeightLens(가중치 렌즈)**와 **CircuitLens(회로 렌즈)**를 개발했습니다.

1. WeightLens (웨이트 렌즈): "설계도를 보는 눈"

이 도구는 AI 가 학습한 **고정된 연결 구조 (가중치)**만 보고 특징을 파악합니다.

  • 비유: 요리사의 레시피 책을 펼쳐서, "이 요리는 기본적으로 '소금'과 '마늘'이 연결되어 있구나"라고 미리 알아내는 것입니다.
  • 장점:
    • 실제 요리를 해보지 않아도 (데이터 없이) 레시피를 알 수 있습니다.
    • 다른 AI(설명자) 의 도움을 받지 않아도 됩니다.
    • 특징: AI 가 어떤 단어 (예: "사과") 를 보면 무조건 반응하는 고정된 특징을 찾아내는 데 탁월합니다.

2. CircuitLens (서킷 렌즈): "실제 조리 과정을 추적하는 눈"

이 도구는 AI 가 실제로 요리를 할 때, 어떤 재료가 어떻게 섞여 요리가 완성되는지 그 과정을 추적합니다.

  • 비유: 요리사가 요리를 하는 실시간 영상을 찍어서, "아, 소금을 넣을 때 '마늘'이 함께 들어가야 '간장'이 튀어나오는구나"라고 연결 고리를 찾아내는 것입니다.
  • 장점:
    • 문맥에 따라 달라지는 복잡한 특징 (예: "그는"이라는 단어가 문맥에 따라 '남자'를 뜻할 수도 있고 '동물'을 뜻할 수도 있는 경우) 을 잘 파악합니다.
    • AI 가 입력한 단어뿐만 아니라, 최종적으로 어떤 단어를 만들어낼지까지 예측하여 그 역할을 설명합니다.
    • 특징: 여러 가지 의미가 섞인 복잡한 특징 (다의성) 을 묶어서 정리해 줍니다.

🚀 이 기술이 가져오는 변화

  1. 더 빠르고 저렴해집니다: 거대한 데이터를 모으고 또 다른 AI 를 구동할 필요가 줄어들어, 비용과 시간이 절약됩니다.
  2. 더 정확해집니다: 단순히 "이 단어가 많이 나왔어"라는 표면적인 설명을 넘어, "왜 이 단어가 나왔는지"에 대한 구조적인 이유를 찾아냅니다.
  3. 안전해집니다: AI 가 왜 그런 결정을 내렸는지 명확히 알 수 있으므로, 의료나 법률 같은 민감한 분야에서 AI 를 더 안전하게 쓸 수 있게 됩니다.

📝 한 줄 요약

"기존에는 AI 가 입술을 움직이는 모습만 보고 추측했다면, 이제는 AI 의 뇌 구조와 작동 원리 (회로) 를 직접 분석해서, 왜 그런 말을 했는지 설계도 수준으로 명확하게 설명해 드립니다."

이 연구는 AI 를 '검은 상자'에서 벗어나, 우리가 이해하고 통제할 수 있는 '투명한 상자'로 만드는 중요한 발걸음입니다.