이 텍스트 뒤에 있는 AI 와 같은 트랜스포머 언어 모델을 정적인 뇌가 아닌 공장 조립 라인으로 상상해 보십시오.

오랫동안 연구자들은 AI 가 '신뢰성'이나 '거부'와 같은 개념을 학습할 때, 그 조립 라인의 한 특정 지점에서 일어난다고 생각했습니다. 그들은 아이디어가 가장 선명하게 드러나는 단일한 '최적의 층 (layer)'을 찾으려 했으며, 이는 영화 속 한 캐릭터의 얼굴이 가장 선명하게 보이는 순간을 찾는 것과 같습니다.

이 논문은 그 관점이 너무 단순하다고 주장합니다. 대신 단일한 스냅샷이 아니라, 개념은 과정입니다. 개념은 조립 라인의 특정 *구역 (zone)*을 통과하며 점차적으로 구축됩니다. 저자는 이를 **개념 할당 구역 (Concept Allocation Zone, CAZ)**이라고 부릅니다.

일상적인 비유를 사용하여 이것이 어떻게 작동하는지 살펴보면 다음과 같습니다:

1. 조립 라인 대 스냅샷

AI 의 '잔류 스트림 (residual stream, 모델을 통과하는 데이터)'을 컨베이어 벨트로 생각해 보십시오.

과거의 방식: 연구자들은 벨트를 한 특정 지점에서 멈추고 사진을 찍은 뒤, "개념이 여기에 존재한다"고 말했습니다.
새로운 방식 (CAZ): 이 논문은 "아니요, 개념은 이동하면서 구축되고 있습니다"라고 말합니다. 개념은 모호한 아이디어로 시작해 정제되고, 아마도 벨트의 다른 부분으로 전달된 후 최종적으로 정착합니다. CAZ 는 모델이 해당 개념을 명확하게 만들기 위해 내부 기하학을 능동적으로 조직화하는 컨베이어 벨트의 전체 구간입니다.

2. 구축 과정을 지켜보는 세 가지 도구

이 과정을 추적하기 위해 저자는 라인의 모든 지점에서 일어나는 일을 측정하는 세 가지 '센서'를 고안했습니다:

분리 (Separation, 거리): 두 그룹의 사람들 (예: '신뢰할 수 있는' 대 '신뢰할 수 없는') 을 상상해 보십시오. 라인 시작부에서는 모두 군중 속에 뒤섞여 있습니다. 라인을 따라 이동함에 따라 '신뢰할 수 있는' 그룹은 왼쪽으로, '신뢰할 수 없는' 그룹은 오른쪽으로 걷기 시작합니다. 분리는 이 두 그룹이 얼마나 멀리 떨어져 있는지를 측정합니다.
일관성 (Coherence, 질서): 때로는 그룹들이 멀리 떨어져 있지만, 동시에 흐트러지고 흩어져 있기도 합니다. 일관성은 그룹이 깔끔하고 단단한 줄을 이루고 있는지, 아니면 혼란스러운 무리인지 여부를 측정합니다. 높은 점수는 개념이 명확한 형태로 '결정화'되었음을 의미합니다.
속도 (Velocity, 변화의 속도): 이는 그룹들이 얼마나 빠르게 멀어지는지를 측정합니다. 거리가 급격히 증가한다면 개념이 지금 구축되고 있는 것입니다. 거리가 변하지 않는다면 개념이 완성된 것입니다. 만약 그룹들이 다시 서로 가까워지기 시작한다면 개념이 폐기되거나 변경되고 있는 것입니다.

3. '부드러운' 구역

이 논문은 놀라운 사실을 발견했습니다. 개념은 단순히 하나의 큰 피크만 갖는 것이 아니라, 종종 여러 개의 구역을 가집니다.

주요 CAZ: 개념이 가장 강력한 크고 명백한 피크입니다.
부드러운 CAZ: 표준 도구들이 놓쳐버리는 작고 미묘한 구역들입니다. 논문은 이러한 '부드러운' 구역들도 실제로 활성화되어 있음을 발견했습니다. 이들을 끄면 AI 의 행동이 변합니다. 시계 바퀴를 돌리고 있다는 사실을 몰랐던 작은 숨겨진 기어를 발견한 것과 같습니다. 이 기어들을 멈추면 시계가 작동하지 않게 됩니다.

4. 개념은 '하위 표현 (Sub-Representations)'을 가집니다

때로는 '신뢰성'과 같은 개념이 조립 라인에 두 번 나타납니다:

얕은 구역 (Shallow Zone): 시작부 근처에서 AI 는 '신뢰할 수 있는'이나 '믿음'과 같은 특정 단어 때문에 신뢰성을 인식할 수 있습니다.
깊은 구역 (Deep Zone): 라인 더 아래로 내려가면 AI 는 전체 이야기와 맥락에 기반하여 이를 재평가합니다.
이 논문은 이것이 실제로 AI 의 마음속에서 서로 다른 기하학적 형태임을 보여줍니다. 이는 서로 다른 깊이에서 발생하는 동일한 단어를 이해하는 두 가지 다른 방식입니다.

5. '인도 (Handoff)'

개념은 이동하고 모양을 바꾸기 때문에, 이 논문은 개입 (AI 의 행동 변경) 을 원한다면 단순히 '최적의' 층을 선택해서는 안 된다고 제안합니다. 대신 개념이 그 여정을 마치고 안정적인 형태로 '정착'할 때까지 기다려야 합니다. 이를 **인도 층 (handoff layer)**이라고 합니다.

비유: 공을 잡으려 할 때, 공이 아직 던져지는 동안 (구축 단계) 잡으려 하지 말고, 공이 공중에 떠서 안정된 상태 (인도 단계) 가 될 때까지 기다려야 합니다.

6. '보편적' 패턴

이 논문은 34 개의 서로 다른 AI 모델에서 이를 테스트했습니다. 그들은 서로 다른 모델이 서로 다른 수의 층을 가지고 있지만, 모두 개념을 유사한 상대적 순서로 조직화한다는 사실을 발견했습니다.

비유: 두 개의 서로 다른 공장을 상상해 보십시오. 하나는 10 개의 지점을 가지고 있고, 다른 하나는 100 개의 지점을 가지고 있습니다. 두 공장 모두 자동차를 조립합니다. 두 공장 모두에서 엔진은 라인의 처음 20% 에서 조립되고, 도장 작업은 마지막 20% 에서 이루어집니다. 총 길이가 다르더라도 라인의 백분율은 동일합니다. 이 논문은 AI 모델들이 동일한 '깊이 계층화 (depth-stratified)' 청사진을 따르는 것을 확인했습니다.

테스트된 내용 요약

저자는 이 이론을 검증하기 위해 7 가지 구체적인 예측을 세웠습니다. 다음은 평이한 영어로 된 결론입니다:

예측 1 (어디를 끊을지): 그들은 구역의 중간을 끊는 것이 최선이라고 생각했습니다. 거짓입니다. 모델에 따라 다르며, 때로는 끝을 끊는 것이 더 좋습니다.
예측 2 (순서): 그들은 모든 모델에서 개념의 순서가 동일하다고 생각했습니다. 대부분 사실입니다. 순서는 일관되지만 완벽하게 경직되지는 않습니다.
예측 3 (폭): 그들은 복잡한 아이디어가 라인에서 더 많은 공간을 차지한다고 생각했습니다. 아마도 그렇습니다. 데이터가 이를 암시하지만, 더 많은 테스트가 필요합니다.
예측 4 (끝): 그들은 개념이 맨 끝에서 흐트러진다고 생각했습니다. 테스트 불가입니다. '하나의 흐트러진 끝'에 대한 이론은 잘못되었습니다. 개념은 종종 여러 개의 피크를 가지므로 측정할 단 하나의 '끝'이 없기 때문입니다.
예측 5 (정렬): 그들은 모델 간의 *깊이 (라인의 백분율)*를 맞추는 것이 핵심이라고 생각했습니다. 참입니다. 이것이 가장 강력한 발견입니다. 한 모델의 '중간'을 다른 모델의 '중간'과 비교하면 완벽하게 정렬됩니다.
예측 6 (단어 대 맥락): 그들은 초기 구역은 단어에 관한 것이고 깊은 구역은 맥락에 관한 것이라고 생각했습니다. 거짓입니다. 초기 구역은 단순한 원시 단어가 아니라 이미 처리된 것입니다.
예측 7 (아키텍처): 그들은 '피크'의 수는 모델의 크기가 아니라 모델 유형에 달려 있다고 생각했습니다. 알 수 없습니다. 테스트가 충분히 크지 않아 확실히 말할 수 없습니다.

결론

이 논문은 AI 에 대한 관점을 **정적인 지도 (개념이 어디에 있는가?)**에서 **동적인 영화 (개념이 어떻게 형성되는가?)**로 전환시킵니다. 이는 아이디어의 '건설 구역'을 측정하는 방법을 도입하여, AI 모델이 복잡한 사고를 여러 단계로 구축하며 이전 방법들이 놓쳤던 여러 숨겨진 단계를 종종 사용한다는 사실을 밝혀냈습니다.

기술 요약: 개념 할당 영역 (CAZ)

문제 제기

현재 기계적 해석 가능성 (mechanistic interpretability) 방법론들은 주로 "최적 레이어" 휴리스틱에 의존하여, 트랜스포머의 잔여 스트림 (residual stream) 에서 개념의 표현이 최대 클래스 분리를 달성하는 단일 최적 레이어를 식별합니다. (예: 선형 프로빙 또는 평균 차이를 통한 식별). 이는 계산적으로 효율적이지만, 개념 형성을 동적 과정이 아닌 정적 스냅샷으로 취급합니다. 이 접근법은 모델의 레이어 전반에 걸쳐 개념이 어떻게 조립되고, 조직화되며, 잠재적으로 재할당되는지 반복적이고 깊이 확장된 특성을 포착하지 못합니다. 결과적으로 단일 레이어 기반 방법론들은 과도기적 표현, 미묘한 할당 영역, 그리고 개념 구성의 기하학적 역동성을 놓칠 수 있습니다.

방법론

본 논문은 개념 표현을 단일 점이 아닌 모델 깊이의 연속적인 영역으로 재정의하는 개념 할당 영역 (Concept Allocation Zone, CAZ) 프레임워크를 제시합니다. 이 프레임워크는 잔여 스트림 활성화에서 계산된 세 가지 레이어별 지표에 의존합니다:

분리도 (Separation, $S(l)$ ): 레이어 $l$ 에서 대조적 클래스 간의 피셔 정규화 (Fisher-normalized) 중심점 거리입니다. 이는 특정 깊이에서 모델이 두 클래스 (예: 신뢰할 수 있는 텍스트 vs. 신뢰할 수 없는 텍스트) 를 얼마나 쉽게 구별하는지를 측정합니다.
개념 일관성 (Concept Coherence, $C(l)$ ): 풀링된 활성화 행렬의 첫 번째 주성분에 대한 설명 분산 비율입니다. 이는 개념이 단일하고 깨끗한 기하학적 방향으로 인코딩되었는지, 아니면 여러 차원에 걸쳐 퍼져 있는지를 정량화합니다.
개념 속도 (Concept Velocity, $v(l)$ ): 레이어 간 분리도 지표의 평활화된 변화율입니다. 양의 속도는 개념의 능동적 구성을 나타내고, 음의 속도는 저하 또는 재할당을 나타냅니다.

탐지 및 추출

이 프레임워크는 수동 레이어 스윕 없이 CAZ 경계를 식별하기 위해 점수 기반 탐지 방법을 사용합니다. 고정 임계값 피크 탐지와 달리, 이 방법은 prominence(주목도), 일관성, 그리고 영역 너비를 통합한 복합 점수를 사용합니다. 이를 통해 다음을 식별할 수 있습니다:

주요/강력한 CAZ: 높은 주목도와 집중된 할당 영역.
부드러운 CAZ (Gentle CAZes): 표준 피크 탐지에는 보이지 않지만 (점수 < 0.05), 경험적으로 인과적으로 활성임이 입증된 미묘한 할당 영역.

이 프레임워크는 입력 경계에서의 토큰 수준 특징에 의해 주도되는 임베딩 CAZ와 트랜스포머 레이어 내 어텐션 및 MLP 연산에 의해 주도되는 활성 CAZ를 구분합니다.

개념 추출을 위해, 본 논문은 개념의 방향적 궤적을 추적하는 **기하학적 진화 지도 (Geometric Evolution Maps, GEM)**를 검증합니다. 연구 결과에 따르면, 개념 방향은 종종 CAZ 내에서 상당한 회전을 겪으며, CAZ 이후의 "인수 전달 레이어 (handoff layer)"에서만 안정화됩니다. 특히 멀티헤드 어텐션 (MHA) 아키텍처에서 분리도 피크를 프로빙하는 것보다 이러한 인수 전달 레이어를 프로빙하는 것이 더 정밀한 경우가 많습니다.

주요 기여

CAZ 프레임워크: 개념 자체와 구별되는, 모델이 개념을 서비스하기 위해 기하학을 조직화하는 깊이 국소화 구간으로서의 개념 할당에 대한 공식적 정의.
세 가지 레이어별 지표: 개념 형성을 과정으로 특징짓기 위한 분리도, 일관성, 속도의 공식화.
점수 기반 탐지: 표준 방법론이 놓치는 "부드러운 CAZ"를 드러내는 할당 영역 스펙트럼을 식별하기 위한 원칙적인 방법.
하위 표현 발견: 단일 인간 개념 레이블 (예: "신뢰성") 이 서로 다른 처리 깊이 (얕음 vs. 깊음) 에서 급격한 위상 전이로 분리된 여러 기하학적으로 구별되는 하위 표현에 매핑된다는 경험적 증거.
깊이 계층 정렬: 절대 레이어 인덱스나 아키텍처 계열이 아닌 처리 깊이 (비례 레이어 인덱스) 로 개념을 매칭할 때 교차 아키텍처 정렬이 가장 강력하다는 것을 보여주는 정제된 플라톤적 표현 가설 (Platonic Representation Hypothesis) 의 관점.

경험적 결과

이 프레임워크는 8 가지 아키텍처 계열(Pythia, GPT-2, OPT, Qwen 2.5, Gemma 2, Llama 3.2, Mistral, Phi 포함) 의 34 개 모델과 7 가지 개념에 걸쳐 검증되었습니다.

다중 모드성: 분리도 곡선 $S(l)$ 은 종종 다중 모드입니다. 단일 개념은 일반적으로 여러 CAZ 에 참여합니다 (모델당 개념당 평균 3.4 개).
부드러운 CAZ 의 인과적 활동: 34 개 모델 중 16 개 모델 (동반 연구에서 26 개 기본 모델로 확장) 에 대한 제거 실험 (ablation studies) 은 "부드러운 CAZ"(점수 < 0.05) 를 억제할 경우 **93–100%**의 사례에서 기하학적 분리가 감소함을 보여, 표준 탐지에는 보이지 않음에도 불구하고 인과적 역할을 수행함을 확인했습니다.
예측 판정:
- 지지됨 (P5): 교차 아키텍처 정렬은 깊이 매칭이 이루어집니다. 매칭된 처리 깊이의 하위 표현들은 불일치된 깊이보다 더 강하게 정렬됩니다.
- 부분적 지지 (P2): CAZ 경계는 아키텍처 간에 일관된 상대적 순서 (얕은 것에서 깊은 것) 를 보이지만, 이는 엄격한 불변량이 아닌 통계적 경향입니다.
- 지지되지 않음 (P1, P6): 최적 제거 깊이는 보편적으로 CAZ 중간이 아닙니다 (인코딩 중복도에 따라 다름). 또한 얕은 피크는 원시 토큰 임베딩과 직접적으로 상관관계가 없습니다.
- 제시된 대로 테스트 불가 (P4): 단일 사후 CAZ 저하 영역이라는 전제는 다중 모드 할당 발견으로 인해 무효화되었습니다.
- 탐색적/불확실 (P3, P7): CAZ 너비와 추상화 간의 상관관계, 그리고 다중 모드성 보편성과 아키텍처 간의 관계는 추가 데이터가 필요합니다.

중요성과 주장

본 논문은 CAZ 프레임워크가 해석 가능성 패러다임을 해부학(개념이 가장 잘 보이는 위치를 찾는 것) 에서 동적 흐름(개념이 어떻게 형성되는지 추적하는 것) 으로 전환한다고 주장합니다.

해석 가능성의 정제: CAZ 체인의 서로 다른 지점에서의 제거가 질적으로 다른 효과를 생성한다는 점을 시사하며, 개입 깊이를 선택하기 위한 기하학적 근거를 제공합니다.
"암흑 물질"과의 연결: 희소 오토인코더 (SAEs) 로 설명되지 않는 구조화된 잔여물은 CAZ 내의 진행 중인 개념 구성, 즉 단일 레이어에서 선형 분해를 저항하는 과도기적 표현에 해당할 것이라는 가설을 제시합니다.
정렬 훈련 통찰: CAZ 프로파일은 지시 미세 조정 (instruction tuning) 이 개념 할당을 어떻게 왜곡하는지 정량화하는 지표로 기능하며, 미세 조정이 개념을 단순히 더 얕은 깊이로 균일하게 이동시키는 것이 아니라 기본 모델의 기존 기하학에 기반하여 할당을 변경한다는 것을 드러냅니다.
깊이 계층 수렴: 가장 강력한 경험적 결과는 교차 아킵처 정렬이 전역적으로가 아닌 비례 처리 단계에서 발생하는 깊이 계층 현상임을 확인한 것으로, 정제된 버전의 플라톤적 표현 가설을 지지합니다.

저자들은 CAZ 가 개념 자체가 아니라 기하학적 조직화의 계산적 사건이 발생하는 깊이 영역임을 강조합니다. 여러 개념이 하나의 CAZ 를 공유할 수 있으며, 단일 개념은 일반적으로 깊이에 걸쳐 여러 CAZ 에 참여합니다. 참조 구현은 오픈 소스 rosetta_tools 라이브러리에 제공됩니다.

The Concept Allocation Zone: Tracking How Concepts Form Across Transformer Depth