Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (AI) 이 머릿속에서 무슨 생각을 하는지, 어떻게 작동하는지"**를 더 쉽고 정확하게 알아내는 새로운 방법을 제안합니다.

기존의 AI 해석 기술은 마치 **"사람이 말을 할 때 입술이 어떻게 움직이는지 (활성화) 만 관찰"**하는 것과 비슷했습니다. 하지만 이 논문은 **"뇌의 신경 연결 구조 (가중치) 와 회로 (Circuit)"**를 직접 분석하여, AI 가 왜 그런 말을 했는지 더 깊이 이해하려는 시도입니다.

주요 내용을 일상적인 비유로 설명해 드릴게요.

🕵️‍♂️ 문제: AI 는 왜 그렇게 말할까? (기존 방식의 한계)

기존 연구자들은 AI 가 특정 단어를 말할 때, **"어떤 단어가 가장 크게 반응했는지"**만 보았습니다.

비유: 요리사가 요리를 할 때, "이 재료가 많이 들어갔구나"라고만 보고 레시피를 추측하는 것과 같습니다.
문제점: 하지만 재료만 보고는 요리사의 의도나 **비밀 레시피 (회로)**를 알기 어렵습니다. 게다가 이걸 분석하려면 거대한 데이터와 또 다른 AI(설명자) 가 필요해서 비용이 많이 들고, 때로는 엉뚱한 설명이 나오기도 합니다.

💡 해결책: 두 가지 새로운 렌즈 (WeightLens & CircuitLens)

저자들은 AI 의 '뇌 구조'를 직접 들여다보는 두 가지 새로운 도구, **WeightLens(가중치 렌즈)**와 **CircuitLens(회로 렌즈)**를 개발했습니다.

1. WeightLens (웨이트 렌즈): "설계도를 보는 눈"

이 도구는 AI 가 학습한 **고정된 연결 구조 (가중치)**만 보고 특징을 파악합니다.

비유: 요리사의 레시피 책을 펼쳐서, "이 요리는 기본적으로 '소금'과 '마늘'이 연결되어 있구나"라고 미리 알아내는 것입니다.
장점:
- 실제 요리를 해보지 않아도 (데이터 없이) 레시피를 알 수 있습니다.
- 다른 AI(설명자) 의 도움을 받지 않아도 됩니다.
- 특징: AI 가 어떤 단어 (예: "사과") 를 보면 무조건 반응하는 고정된 특징을 찾아내는 데 탁월합니다.

2. CircuitLens (서킷 렌즈): "실제 조리 과정을 추적하는 눈"

이 도구는 AI 가 실제로 요리를 할 때, 어떤 재료가 어떻게 섞여 요리가 완성되는지 그 과정을 추적합니다.

비유: 요리사가 요리를 하는 실시간 영상을 찍어서, "아, 소금을 넣을 때 '마늘'이 함께 들어가야 '간장'이 튀어나오는구나"라고 연결 고리를 찾아내는 것입니다.
장점:
- 문맥에 따라 달라지는 복잡한 특징 (예: "그는"이라는 단어가 문맥에 따라 '남자'를 뜻할 수도 있고 '동물'을 뜻할 수도 있는 경우) 을 잘 파악합니다.
- AI 가 입력한 단어뿐만 아니라, 최종적으로 어떤 단어를 만들어낼지까지 예측하여 그 역할을 설명합니다.
- 특징: 여러 가지 의미가 섞인 복잡한 특징 (다의성) 을 묶어서 정리해 줍니다.

🚀 이 기술이 가져오는 변화

더 빠르고 저렴해집니다: 거대한 데이터를 모으고 또 다른 AI 를 구동할 필요가 줄어들어, 비용과 시간이 절약됩니다.
더 정확해집니다: 단순히 "이 단어가 많이 나왔어"라는 표면적인 설명을 넘어, "왜 이 단어가 나왔는지"에 대한 구조적인 이유를 찾아냅니다.
안전해집니다: AI 가 왜 그런 결정을 내렸는지 명확히 알 수 있으므로, 의료나 법률 같은 민감한 분야에서 AI 를 더 안전하게 쓸 수 있게 됩니다.

📝 한 줄 요약

"기존에는 AI 가 입술을 움직이는 모습만 보고 추측했다면, 이제는 AI 의 뇌 구조와 작동 원리 (회로) 를 직접 분석해서, 왜 그런 말을 했는지 설계도 수준으로 명확하게 설명해 드립니다."

이 연구는 AI 를 '검은 상자'에서 벗어나, 우리가 이해하고 통제할 수 있는 '투명한 상자'로 만드는 중요한 발걸음입니다.

Each language version is independently generated for its own context, not a direct translation.

CIRCUIT INSIGHTS: TOWARDS INTERPRETABILITY BEYOND ACTIVATIONS (ICLR 2026) 기술 요약

이 논문은 대규모 언어 모델 (LLM) 의 내부 메커니즘을 이해하기 위한 자동화된 해석 가능성 (Automated Interpretability) 연구의 한계를 극복하고, **가중치 (Weights)**와 회로 (Circuits) 구조에 기반한 새로운 접근법을 제안합니다. 기존 방법론이 주로 활성화 (Activations) 데이터와 외부 LLM 에 의존하는 문제를 지적하며, WeightLens와 CircuitLens라는 두 가지 상호 보완적인 프레임워크를 소개합니다.

1. 문제 정의 (Problem Statement)

기존의 기계적 해석 가능성 (Mechanistic Interpretability) 및 설명 가능한 AI (XAI) 연구는 다음과 같은 주요 한계를 겪고 있습니다:

수동 분석의 한계: 기존 회로 발견 (Circuit Discovery) 연구는 주로 단순한 태스크 (Toy tasks) 에 국한되며, 개별 뉴런이나 어텐션 헤드의 역할을 파악하기 위해 방대한 수동 분석이 필요합니다.
활성화 기반 자동화 방법의 결함:
- 데이터 및 외부 LLM 의존성: Bills et al. (2023) 등이 제안한 자동화 파이프라인은 대규모 데이터셋을 모델에 통과시켜 활성화 패턴을 수집한 후, 이를 더 큰 LLM(Explainer LLM) 에 전달하여 자연어 설명을 생성합니다. 이는 해석 가능성 문제를 또 다른 '블랙박스'인 LLM 에 의존하게 만듭니다.
- 다의성 (Polysemanticity) 과 노이즈: 희소 특징 (Sparse features, 예: SAE) 이라 하더라도 특정 패턴에 매우 민감하게 반응하거나 다의성을 가질 수 있어, 활성화만으로는 정확한 트리거를 파악하기 어렵습니다.
- 데이터 편향: 생성된 설명의 품질은 프롬프트, 미세 조정 전략, 사용된 데이터셋의 품질에 크게 좌우됩니다.

2. 방법론 (Methodology)

저자들은 Transcoder 아키텍처를 활용하여 입력 의존적 (Input-dependent) 성분과 입력 불변 (Input-invariant) 성분을 분리하는 특성을 기반으로 두 가지 새로운 방법을 제안합니다.

2.1 WeightLens: 입력 불변 자동 해석 가능성

WeightLens 는 데이터셋이나 외부 LLM 없이 모델의 **학습된 가중치 (Weights)**만으로 특징을 해석합니다.

핵심 원리: Transcoder 의 특징 $i'$ 가 이전 층의 특징 $i$ 에 기여하는 정도는 입력에 의존하는 활성화 값과 입력에 불변인 가중치 연결 항 ( $W_{dec} \cdot W_{enc}$ ) 으로 분리됩니다.
가정 1: 의미 있는 구조적 관계는 다른 연결보다 통계적으로 유의미하게 큰 크기 (Outlier) 를 가진 가중치 연결로 나타납니다.
가정 2: 입력 불변 연결로 강력하게 지지되는 토큰은 맥락과 무관하게 해당 특징을 활성화해야 합니다.
프로세스:
1. 임베딩/언바딩 투사: 특징의 인코더 벡터를 입력 임베딩 공간으로, 디코더 벡터를 어휘 로그이트 (Logits) 공간으로 투사하여 아웃라이어 (Outlier) 토큰을 식별합니다.
2. 가중치 기반 연결 분석: 이전 층의 특징들 간의 가중치 연결을 분석하여 상위 기여 특징을 찾습니다.
3. 검증 (Validation): 식별된 후보 토큰들이 전방향 통과 (Forward pass) 시 실제로 특징을 활성화하는지 검증합니다. 맥락에 의존하지 않는 토큰만 최종 설명에 포함됩니다.
4. 설명 생성: 검증된 토큰들을 바탕으로 특징의 기능을 설명하며, 필요 시 LLM 을 이용한 후처리를 생략하거나 경량화합니다.

2.2 CircuitLens: 회로 기반 자동 해석 가능성

맥락 의존적인 특징을 해석하기 위해 활성화 패턴과 회로 구조를 결합합니다.

활성화 캐싱 및 샘플링: 전체 데이터셋에서 특징의 활성화 분포를 캐싱하고, 희소성을 고려하여 역빈도 분위기 샘플링 (Inverse-frequency quantile sampling) 을 수행하여 드물지만 강력하게 활성화되는 사례를 포착합니다.
회로 기반 패턴 탐지:
- 입력 중심: 어텐션 헤드를 통한 기여도 (Attribution) 분석으로 특징 활성화에 기여한 토큰 쌍 (Attention head, token) 을 식별하고, 관련 토큰만 마스킹하여 입력 패턴을 격리합니다.
- 출력 중심: 활성화된 특징이 모델의 생성된 토큰 (Logits) 에 어떤 영향을 미쳤는지 분석하여 특징의 하류 영향력을 파악합니다.
회로 기반 클러스터링:
- 단일 특징이 여러 개념 (Polysemanticity) 에 반응할 수 있으므로, 각 입력에 대한 기여 요소 (Transcoder 특징, 어텐션 헤드 등) 를 벡터로 수집합니다.
- Jaccard 유사도를 기반으로 DBSCAN 을 적용하여 활성화 패턴이 유사한 입력들을 클러스터링합니다.
- 각 클러스터별로 LLM 을 통해 설명을 생성한 후, 이를 통합하여 특징의 전체적인 기능을 설명합니다.

3. 주요 기여 (Key Contributions)

WeightLens 프레임워크: 데이터셋과 외부 LLM 에 의존하지 않고 Transcoder 가중치만으로 특징을 해석하는 방법을 제시합니다. 이는 컨텍스트 독립적인 특징에 대해 기존 방법과同等하거나 더 나은 성능을 보입니다.
CircuitLens 프레임워크: 활성화 기반 방법론이 놓치는 회로 수준의 동역학을 포착합니다. 입력 패턴 격리, 출력 영향 분석, 그리고 다의성 특징을 위한 클러스터링을 통해 해석의 견고성을 높입니다.
확장성과 견고성: 두 방법론을 결합함으로써 대규모 데이터셋의 의존성을 줄이고, 소규모 데이터셋에서도 안정적인 해석을 가능하게 하며, 자동화된 기계적 분석의 효율성을 증대시켰습니다.

4. 실험 결과 (Results)

GPT-2 Small, Gemma-2-2B, Llama-3.2-1B 모델을 대상으로 Transcoder 특징에 대한 평가를 수행했습니다. 평가 지표는 FADE 프레임워크 (Clarity, Responsiveness, Purity, Faithfulness) 를 사용했습니다.

WeightLens 성능:
- Clarity(명확성) 및 Responsiveness(반응성): 활성화 최대화 (Activation Maximization) 기반 방법 (Neuronpedia, MaxAct*) 보다 전반적으로 우수한 성능을 보였습니다.
- Purity(순수성): 활성화 기반 방법이 더 높은 순도 점수를 보인 것은 많은 특징이 맥락 의존적이기 때문으로 분석되었으며, 이는 WeightLens 만으로는 포착하기 어려운 영역임을 시사합니다.
- 검증: 가중치 기반 설명이 실패하는 경우 활성화 기반 설명도 성능이 낮아지는 경향이 있어, 두 접근법의 상호 보완적 필요성이 입증되었습니다.
- 레이어별 분석: 초기 층 (Early layers) 은 토큰 기반 구조가 명확하여 WeightLens 에 적합했으나, 중간 층은 맥락 의존성이 강해 해석이 어려웠습니다.
CircuitLens 성능:
- 데이터셋 의존성 감소: CircuitLens 는 작은 데이터셋 (24M 토큰) 에서도 큰 데이터셋 (2.3B 토큰) 기반의 활성화 기반 방법보다 경쟁력 있는, 혹은 더 나은 성능을 보였습니다.
- 다의성 해결: 클러스터링을 통해 다의성 특징을 분리하여 설명함으로써, 활성화만으로는 파악하기 어려운 세부 패턴 (예: 특정 문맥에서의 "the" 또는 "this" 사용) 을 성공적으로 식별했습니다.
- 출력 영향 분석: 특징이 생성된 텍스트에 미치는 영향 (예: "the basis of" 같은 구문 생성) 을 파악하여 특징의 기능적 역할을 더 명확히 했습니다.
Faithfulness(신뢰성) 한계: Transcoder 아키텍처의 특성상 (잔여 스트림에 MLP 처럼 쓰기) 개별 특징의 조작이 모델 출력에 큰 영향을 미치지 않아, 모든 방법에서 Faithfulness 점수가 낮게 나타났습니다. 이는 특징 그룹이나 전체 회로 단위의 평가가 필요함을 시사합니다.

5. 의의 및 결론 (Significance & Conclusion)

이 연구는 자동화된 해석 가능성 파이프라인의 핵심적인 공백을 메우는 중요한 진전입니다.

구조적 정보의 활용: 단순한 활성화 데이터를 넘어 모델의 구조적 정보 (가중치, 회로 연결) 를 활용함으로써 해석의 정확성과 확장성을 동시에 달성했습니다.
실용성 증대: 외부 LLM 과 대규모 데이터셋에 대한 의존성을 줄여, 해석 가능성 연구의 비용과 안전성 리스크를 감소시켰습니다.
미래 방향: WeightLens 와 CircuitLens 의 결합은 다양한 모델 아키텍처 (SAE, Crosscoders 등) 로 확장 가능하며, 클러스터링 하이퍼파라미터 최적화 등을 통해 더 정교한 기능적 서브컴포넌트 식별이 가능해질 것입니다.

결론적으로, 이 논문은 "활성화 기반" 접근법에서 "가중치 및 회로 기반" 접근법으로의 패러다임 전환을 제안하며, 대규모 언어 모델의 내부 작동 원리를 더 신뢰할 수 있고 효율적으로 이해할 수 있는 새로운 길을 제시합니다.

Circuit Insights: Towards Interpretability Beyond Activations