원저자: Keenan Pepper, Alex McKenzie, Florin Pop, Stijn Servaes, Martin Leitgab, Mike Vaiana, Judd Rosenblatt, Michael S. A. Graziano, Diogo de Lucena

게시일 2026-06-03✓ Author reviewed ⓘ

📖 4 분 읽기☕ 가벼운 읽기

CC BY 4.0

원저자: Keenan Pepper, Alex McKenzie, Florin Pop, Stijn Servaes, Martin Leitgab, Mike Vaiana, Judd Rosenblatt, Michael S. A. Graziano, Diogo de Lucena

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

거대 언어 모델(LLM)을 거대하고 믿기지 않을 정도로 복잡한 도서관이라고 상상해 보세요. 이 도서관 내부의 정보는 여러분이 읽을 수 있는 책의 형태가 아니라, 모델이 "생각"할 때 발생하는 거대하고 보이지 않는 전기 신호(활성화)의 웹 속에 저장되어 있습니다.

오랫동안 연구자들은 이 신호들이 무엇을 의미하는지 들여다보기 위해 노력해 왔습니다. 그들은 이 신호들을 특정 개념(예: "수학" 또는 "공손함")에 매핑하는 도구들을 만들어 왔지만, 이 도구들은 매우 까다롭습니다. 만약 다이얼을 아주 조금만 조절해도, 모델은 유창하게 설명하는 것처럼 들리지만 실제로는 자신이 생각하는 바와 전혀 연결되지 않은 횡설수설을 내뱉기 시작할 수 있습니다.

이 논문은 이를 해결할 새로운 방법을 소개합니다. 핵심 아이디어를 쉬운 비유를 통해 나누어 설명하겠습니다.

1. 문제점: "번역기"가 고장 났다

모델의 내부 신호를 비밀 암호라고 상상해 보세요. 이전에는 연구자들이 이 암호를 번역하기 위해 모델의 입에 직접 밀어 넣으며 "이게 무슨 뜻이야?"라고 묻는 방식을 사용했습니다.

문제점: 때때로 모델이 이해하기도 하지만, 종종 혼란을 겪기도 합니다. 모델은 "이 신호는 '작은 흙더기'를 의미한다"라고 말할 수도 있지만, 실제로는 "컴퓨터 함수"를 의미할 수 있습니다. 이는 마치 외국어를 번역할 때 단어를 추측해서 하는 것과 같습니다. 문법은 맞을지 몰라도 의미는 틀리는 것입니다.

2. 해결책: "경량 어댑터(Lightweight Adapter)" 훈련하기

거대한 도서관 전체를 다시 훈련시키는 대신(이는 비용이 많이 들고 도서관의 작동 방식을 변화시킵니다), 저자들은 작고 특화된 어댑터를 훈련시켰습니다.

비유: 어댑터를 특화된 번역가 또는 안경이라고 생각해 보세요.
- 거대한 도서관(모델)은 정확히 그대로 유지되며, 새로운 것을 배우지 않습니다.
- 어댑터는 모델의 눈 앞에 놓이는 작은 부가 장치(렌즈와 같은 것)입니다.
- 저자들은 이 렌즈를 "해석 가능성 아티팩트(interpretability artifacts)"를 사용하여 훈련시켰습니다. 이것들은 연구자들이 이미 만들어 놓은 플래시 카드와 같습니다. 한쪽 면에는 신호 벡터가 있고, 다른 쪽 면에는 레이블(예: "이 신호 = '야구'")이 있습니다.
- 어댑터는 모델이 자신의 생각을 마침내 제대로 "보고" 올바르게 설명할 수 있도록 신호를 조정하는 법을 배웁니다.

3. 마법의 재료: "편향(Bias)" (기본 설정값)

가장 놀라운 발견은 어댑터가 슈퍼컴퓨터일 필요가 없다는 점입니다. 매우 단순한 버전이 가장 잘 작동합니다.

비유: 어댑터가 두 부분으로 구성되어 있다고 상상해 보세요:
1. 신호(Signal): 지금 모델이 생각하고 있는 구체적인 것 (예: "플라톤").
2. 편향(Bias): 어댑터가 학습한 "기본 설정" 또는 생성된 답변의 스타일.
이 논문은 이 "편향"이 85%의 핵심적인 역할을 한다는 것을 발견했습니다. 편향은 모델이 생성하는 답변의 스타일과 형식을 결정합니다. 예를 들어, "이 신호는 '야구'를 의미한다"라고 작성할 때, 편향이 그 문장의 어조나 구조를 잡아주는 것입니다.
흥미로운 증거: 연구자들이 훈련 데이터의 레이블을 모두 **대문자(ALL-CAPS)**로 바꾸어 학습시켰더니, 모델이 생성한 설명도 모두 대문자로 나왔습니다. 이때 입력된 프롬프트(예: "이 신호의 의미는...")는 그대로 유지되었지만, 모델이 직접 쓴 부분만 대문자가 된 것입니다. 이는 대문자라는 스타일 정보가 입력된 텍스트가 아니라, 오직 편향 벡터를 통해 전달되었음을 의미합니다. 즉, 편향은 모델이 "어떻게 말해야 하는지"에 대한 스타일 습관을 가르쳐 주는 것입니다.

4. 그들이 발견한 것

원래의 레이블보다 뛰어남: 어댑터는 단순히 훈련용 플래시 카드를 복사하는 데 그치지 않고, 원래 연구자들이 작성했던 레이블보다 신호를 더 잘 설명해 냈습니다. 이는 마치 학생이 교과서로 공부한 뒤, 교과서 저자보다 더 나은 요약본을 작성하는 것과 같습니다.
숨겨진 생각 드러내기: 모델은 때때로 단계별 과정을 겉으로 말하지 않고도 퍼즐을 풀 수 있습니다(예: 플라톤을 언급하지 않고도 퍼즐에 대해 "아테네"라고 답하는 것). 훈련된 어댑터는 모델이 입 밖으로 내뱉지 않더라도, 그 숨겨진 "플라톤"이라는 생각을 "읽어낼" 수 있습니다.
모델이 커질수록 = 더 나은 번역기: 모델이 커질수록(70억 개에서 720억 개의 파라미터로) 어댑터는 더욱 정교해집니다. 모델은 단순히 질문에 답하는 데 똑똑해지는 것이 아니라, 자신이 어떻게 생각하는지를 설명하는 데 더 능숙해집니다.

5. 이것이 왜 중요한가 (논문에 따르면)

이 논문은 모델을 이해하기 위해 모델 자체를 바꿀 필요가 없다고 주장합니다. 기존 데이터를 기반으로 한 작고 훈련된 "번역기"를 추가함으로써, 우리는 모델의 내부 상태를 볼 수 있는 신뢰할 수 있는 창을 얻을 수 있습니다.

자기 자신에 대한 해석 (Recursive Self-Examination): 기존 기술들은 설명을 위한 별도의 모델을 사용하거나, 설명을 위해 모델을 미세 조정하여 언어 모델 자체를 바꿔버리는 경우가 있었습니다. 하지만 이 방법의 핵심은 모델이 스스로를 해석한다는 점입니다.
- "중요하게도, 이 추가 장치(어댑터)는 패턴을 같은 모델 안으로 되돌려 보냅니다. 즉, 모델이 자신의 생각을 해석하는 것입니다."
- 이는 모델이 자신의 생각에 대한 설명을 다시 분석하고, 그 분석에 대한 또 다른 생각을 만들어내는 등, 단일 모델 내에서 자신의 사고 과정을 내부에서부터 검토할 수 있는 문을 엽니다. 서로 다른 모델들을 연결하는 복잡한 사슬 대신, 하나의 모델이 스스로를 들여다볼 수 있는 가능성을 열어주는 것입니다.

요약하자면: 이 논문은 모델의 뇌를 매핑한 기존 데이터를 바탕으로 작고 훈련된 "번역기"를 제공하기만 하면, 모델을 재훈련하거나 수정하지 않고도 복잡하거나 숨겨진 생각까지도 모델이 무엇을 생각하고 있는지 신뢰할 수 있게 말해줄 수 있음을 보여줍니다.

기술 요약: 해석 가능성 아티팩트로부터의 자기 해석 학습 (Learning Self-Interpretation from Interpretability Artifacts)

1. 문제 정의

대규모 언어 모델(LLM)은 고차원의 은닉 활성화(hidden activations)를 통해 작동하지만, 이러한 내부 상태의 의미론적 내용을 이해하는 것은 해석 가능성 분야의 핵심 과제로 남아 있다. 기계론적 해석 가능성(mechanistic interpretability)은 구조화된 지식(예: 희소 오토인코더(SAE) 피처 및 대조적 활성화 벡터)을 생성해 왔으나, 모델은 자신의 내부 상태에 대해 신뢰할 수 있게 보고하지 못한다.

SelfIE나 Patchscopes와 같은 기존의 자기 해석(self-interpretation) 방법들은 내부 표현을 프롬프트에 주입하여 자연어 설명을 생성하려고 시도하는 활성화 패칭(activation patching)을 사용한다. 그러나 이러한 방법들은 취약하다:

하이퍼파라미터 민감도: 주입되는 벡터의 스케일을 조금만 변경해도 유창하지만 의미론적으로 근거가 없는 설명이 생성될 수 있다.
취약성: 대부분의 벡터는 주입 스케일의 유효 범위가 매우 좁다. 이 범위를 벗어나면 모델은 확신에 차 있지만 틀린 설명을 생성한다.
미세 조정(Fine-Tuning)의 한계: 활성화에 대한 질문에 답하도록 모델을 미세 조정하는 최근의 접근 방식들은 모델의 가중치를 변화시키며, 이는 연구 대상인 바로 그 표현 자체를 변화시킬 위험이 있다. 이상적인 해석기는 대상 모델과 동일하게 유지되어야 한다.

2. 방법론

저자들은 기저 언어 모델(LM)을 완전히 동결(frozen)한 상태에서, 기존의 해석 가능성 아티팩트로부터 언어로 매핑하는 **경량 어댑터(lightweight adapter)**를 훈련하는 방법을 제안한다.

2.1. 훈련 프레임워크

입력: 이 방법은 "해석 가능성 아티팩트"를 감독 데이터(supervision data), 즉 벡터-레이블 쌍 $(h, y)$ $(h, y)$ 로 활용한다.
- 소스 1: 자동 해석 레이블이 쌍을 이루는 SAE 디코더 벡터.
- 소스 2: 합성 주제 설명과 쌍을 이루는 대조적 활성화 벡터 (예: "[주제]에 대해 말해줘"와 같은 프롬프트에서 유도됨).
과정:
1. 소스 프롬프트(예: LM의 특정 레이어)로부터 활성화 벡터 $h$ 를 추출한다.
2. 경량 어댑터 함수 $f(h)$ 가 이 벡터를 변환한다.
3. 변환된 벡터를 토큰 임베딩 레이어(layer 0)의 "타겟 프롬프트"(설명을 구하는 템플릿)에 주입한다.
4. 동결된 LM이 자기회귀적으로 설명을 생성한다.
5. 목적 함수: 생성된 토큰과 정답 레이블 $y$ 사이의 교차 엔트로피 손실(cross-entropy loss)을 최소화한다. 오직 어댑터 파라미터만 업데이트되며, LM은 동결된 상태를 유지한다.

2.2. 어댑터 아키텍처

본 논문은 다양한 표현력을 가진 어댑터를 평가한다:

Identity (항등): $f(h) = h$ (0개 파라미터)
Scale-only (스케일 전용): $f(h) = \alpha \cdot h$ (1개 파라미터)
Scalar Affine (스칼라 아핀): $f(h) = \alpha \cdot h + b$ ( $d_{model} + 1$ 개 파라미터)
Scalar Affine + Low-Rank (스칼라 아핀 + 저차원 랭크): 저차원 랭크 항 $UV^T h$ 를 추가함
Full-Rank Affine (풀 랭크 아핀): $f(h) = Wh + b $($ d_{model}^2 + d_{model}$개 파라미터)

2.3. 추론

추론 시, 훈련된 어댑터는 미학습 활성화 벡터를 토큰 임베딩 공간으로 매핑한다. 스케일 민감도 문제를 해결하기 위해, 시스템은 여러 주입 스케일(로그 그리드 기반)을 평가하고 가장 성능이 좋은 후보 생성을 선택한다.

3. 주요 기여 및 결과

3.1. 훈련된 어댑터의 우수성

훈련된 경량 어댑터는 훈련되지 않은 베이스라인(SelfIE) 및 원래의 훈련 레이블보다 성능이 현저히 높다.

SAE 피처 레이블링: Llama-3.3-70B에서 훈련된 어댑터는 **70%의 생성 점수 적중률(generation scoring hit rate)**을 달 기록하며, 원래의 훈련 레이블(50%)과 훈련되지 않은 SelfIE(48%)를 능가했다.
주제 식별: 대조적 활성화 벡터에 대해, Recall@1이 **~1%(미훈련)에서 >90%(훈련)**로 향상되었다.
암묵적 추론: 이 방법은 멀티홉 추론 작업(예: 국가론의 저자에 대한 질의에서 "플라톤"을 식별하는 작업)에서 "브릿지 엔티티(bridge entities)"를 성공적으로 디코딩했다(모델이 중간 단계를 직접 말하지 않고도 이를 식별함). 훈련된 어댑터는 미훈련 베이스라인의 56%에 비해 **91%**의 사례에서 브릿지 엔티티를 탐지했다.

3.2. 편향 벡터(Bias Vector)의 결정적 역할

놀라운 발견 중 하나는 $d_{model} + 1$ 개의 파라미터만을 가진 스칼라 아핀 어댑터만으로도 대부분의 이득을 얻기에 충분하다는 것이다.

학습된 편향 벡터( $b$ ) 자체가 미훈련 베이스라인 대비 약 85%의 개선을 설명한다.
편향은 "해석적 사전 지식(interpretation prior)" 역할을 하여, 모델을 유효한 설명 형식과 일반적인 콘텐츠 패턴으로 유도하는 한편, 스케일링된 입력 벡터는 인스턴스별 의미를 제공한다.
일반화: 더 단순한 어댑터(Scalar Affine)가 더 표현력이 높은 대안들보다 데이터셋과 레이어 전반에 걸쳐 더 잘 일반화된다.

3.3. 아키텍처와 표현 기하학(Representation Geometry)

어댑터 아키텍처의 성능은 훈련 데이터의 내재적 차원에 따라 달라진다:

대조적 벡터 (저차원성): Wikipedia 주제 벡터는 약 200개 차원에 90% 이상의 분산을 집중시킨다. 이 경우, Full-Rank 어댑터가 성공하며 최상의 성능을 달성한다(과적합 없이).
SAE 피처 (고차원성): SAE 피처는 거의 전체 활성화 공간을 차지한다. 이 경우, Full-Rank 어댑터는 고차원 룩업 테이블을 학습하며 **치명적인 과적합(catastrophically overfit)**을 일으킨다. 과적합을 방방지하고 일반화를 보장하기 위해서는 Scalar Affine 또는 Scalar Affine + Low-Rank 어댑터가 필요하다.

3.4. 스케일링 동작 (Scaling Behavior)

본 논문은 자가 해석 능력이 일반적인 능력 향상과는 독립적으로 모델 규모에 따라 개선됨을 보여준다.

모델의 지식에 대한 상한선으로서 "금기(Taboo)" 베이스라인(모델이 주제 이름을 직접 언급하지 않고 설명하는 방식)을 사용했을 때, 모델의 지식과 그 지식을 보고하는 능력 사이의 격차는 모델 크기가 커짐에 따라(7B에서 72B로) 좁혀진다.
훈련된 SelfIE의 성능은 모델의 원시 주제 설명 능력보다 더 빠르게 성장하며, 이는 더 큰 모델이 어댑터가 해제할 수 있는 더 접근 가능한 내부 의미 구조를 보유하고 있음을 시사한다.

3.5. 교차 데이터셋 및 교차 모델 일반화

한 데이터셋(예: Wikipedia 주제)에서 훈련된 어댑터는 다른 데이터셋(예: SAE 피처)에도 일반화되지만, 훈련 및 추론 데이터 분포가 일치할 때 성능이 가장 높다.
이 접근 방식은 대조적 벡터를 사용할 경우 모델 특유의 SAE 없이도 다양한 모델 제품군(Llama, Gemma, Qwen)에서 작동한다.

4. 의의 및 주장

본 논문은 기초 모델을 수정하지 않고도 경량 변환을 통해 신뢰할 수 있는 자기 해석이 나타날 수 있다고 주장한다.

아티팩트의 재구성: 핵심 통찰은 전통적으로 분석의 종착점으로 간見되었던 해석 가능성 아티팩트(레이블된 벡터)를 훈련 데이터로 재용도화할 수 있다는 것이다. 이를 통해 해석 가능성 연구가 진행됨에 따라 자기 해석 시스템이 자동으로 개선될 수 있다.
특권적 접근권(Privileged Access)의 보존: 베이스 모델을 동결함으로써, 해석기가 대상 모델의 내부 상태에 대해 가지는 "특권적 접근권"을 보존하며, 미세 조정으로 인해 발생하는 인위적 효과를 피한다.
검증 가능성: 이 접근 방식은 모델의 내부 상태에 대한 주장이 행동(예: 생성 점수화)을 통해 검증될 수 있는 "내부 보상으로부터의 RL(RL from internal rewards)"을 가능하게 하며, 모델이 자신의 내부 구조에 대한 검증 가능한 증거를 제공하는 경로를 제시한다.
효율성: 이러한 어댑터를 훈련하는 것은 계산 비용이 저렴하여(예: 70B 규모에서 약 10 GPU-시간), 프런티어 모델을 감사(auditing)하기 위한 확장 가능한 솔루션이 된다.

저자들은 자기 해석이 부분적인 가시성을 제공하지만, 모델이 표현된 출력과 다른 개념이나 의도를 인코딩하고 있는지 탐지할 수 있는 중요한 메커니즘을 제공하며, 이는 AI 안전 및 정렬(alignment) 감사에 기여한다고 결론짓는다.

Learning Self-Interpretation from Interpretability Artifacts: Training Lightweight Adapters on Vector-Label Pairs