From Data Statistics to Feature Geometry: How Correlations Shape Superposition

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (AI) 이 어떻게 세상을 이해하고 기억하는가?"**에 대한 매우 흥미로운 새로운 통찰을 제시합니다. 기존에 우리가 믿어오던 AI 의 작동 원리를 뒤집는 내용인데, 너무 어렵게 설명하지 않고 일상적인 비유로 쉽게 풀어드리겠습니다.

🎒 핵심 비유: "너무 많은 짐을 한 개의 가방에 담기"

우선, AI 가 정보를 저장하는 방식을 상상해 보세요.
AI 는 머릿속 (데이터) 에 있는 수많은 단어와 개념을 **제한된 공간 (가방)**에 담아야 합니다. 예를 들어, 10,000 개의 단어가 있는데 가방의 공간은 100 칸뿐이라고 가정해 봅시다.

1. 기존의 생각: "서로 부딪히지 않게 정리하기" (기존 이론)

과거의 연구자들은 AI 가 이 좁은 가방에 짐을 넣을 때, 서로 완전히 다른 방향으로 쑤셔 넣어서 서로 부딪히지 않게 한다고 믿었습니다.

비유: 가방 속의 물건들이 서로 엉키지 않게, 마치 정육면체 (정다면체) 처럼 딱딱하게 정리된다고 생각했습니다.
문제점: 이렇게 하면 서로 다른 물건 (예: '겨울'과 '여름') 이 섞일 때 서로 방해가 되어, AI 가 엉뚱한 것을 기억할 수 있습니다. 그래서 AI 는 "방해 신호"를 걸러내기 위해 복잡한 필터 (ReLU) 를 사용한다고 여겨졌습니다.

2. 이 논문의 발견: "함께 가는 짐은 서로 도와주기" (새로운 발견)

이 논문은 **"실제 세상은 그렇게 깔끔하지 않다"**고 말합니다. 사람들은 '크리스마스'를 말할 때 '선물', '눈', '12 월'을 함께 이야기하죠. 즉, 개념들은 서로 밀접하게 연결되어 (상관관계) 있습니다.

저자들은 **"Bag-of-Words Superposition (BOWS)"**라는 새로운 실험실을 만들어 AI 를 관찰했습니다. 그 결과 놀라운 사실을 발견했습니다.

새로운 비유: "친구들이 모여서 무리 지어 앉는 것"
AI 는 서로 관련 있는 개념들을 서로 반대 방향이 아니라, 서로 가까이 모여 앉게 합니다.
- 예시: '크리스마스'라는 단어를 기억할 때, AI 는 '12 월'이나 '선물'이라는 단어가 함께 들어오면 이를 방해가 아니라 도움으로 이용합니다.
- 효과: 서로 다른 짐들이 서로를 밀어내지 않고, 서로를 밀어주어 (상호작용) 더 적은 공간으로도 더 많은 정보를 효율적으로 담을 수 있게 됩니다. 이를 **"건설적인 간섭 (Constructive Interference)"**이라고 부릅니다.

🌟 이 발견이 왜 중요한가? (일상적인 예시)

이 논문의 발견은 AI 가 만들어내는 기이한 패턴들을 완벽하게 설명해 줍니다.

1. 달 (Months) 의 원형 구조

현상: AI 의 머릿속에서 '1 월, 2 월, ..., 12 월'이라는 단어들이 무작위로 흩어져 있는 게 아니라, **원형 (Circle)**으로 배열되어 있는 것을 발견했습니다.
이유: 1 월은 12 월과 2 월과 자주 함께 쓰이니까요. AI 는 이 연관성을 이용해 개념들을 원형으로 배치했습니다. 마치 달력이 원형으로 돌아가는 것처럼, AI 도 자연스럽게 그렇게 학습한 것입니다.

2. 의미 있는 군집 (Semantic Clusters)

현상: '스포츠' 관련 단어들은 뭉쳐 있고, '과학' 관련 단어들은 뭉쳐 있습니다.
이유: 서로 자주 함께 등장하는 단어들은 AI 가 서로 도와주며 같은 공간에 모여 있게 됩니다. 마치 파티에서 같은 취미를 가진 사람들이 모여 앉는 것과 같습니다.

🛠️ AI 는 어떻게 이걸 해결할까?

AI 는 이 두 가지 방식을 상황에 따라 섞어서 사용합니다.

친구들끼리 돕기 (건설적 간섭): '크리스마스'와 '선물'처럼 자주 함께 오는 단어들은 서로의 신호를 강화시켜 줍니다.
방해꾼 차단하기 (필터링): 하지만 '크리스마스'와 전혀 상관없는 '생선' 같은 단어가 섞여 들어오면, AI 는 **ReLU(비선형 활성화 함수)**라는 '문지기'를 통해 그 방해 신호를 잘라냅니다.

즉, AI 는 완벽하게 정리된 정육면체가 아니라, 친구들이 모여서 서로 돕는 동시에 낯선 사람은 막아내는 복잡한 사회와 비슷하게 작동한다는 것입니다.

💡 결론: 왜 이 연구가 대단한가요?

이 논문은 **"AI 는 단순히 정보를 압축하는 기계가 아니라, 정보 간의 '관계'를 이용해 효율적으로 학습하는 지능"**임을 보여줍니다.

기존의 오해: AI 는 서로 다른 개념을 섞지 않으려고 애쓴다.
새로운 진실: AI 는 관련된 개념들이 서로 섞여 도움을 주도록 설계되어 있으며, 이것이 오히려 더 적은 공간에 더 많은 지식을 담을 수 있게 해줍니다.

이러한 원리를 이해하면, 우리가 만든 AI 가 왜 특정 단어들을 원형으로 배치하거나, 특정 주제들을 묶어서 기억하는지 그 자연스러운 이유를 알 수 있게 됩니다. 이는 더 똑똑하고 효율적인 AI 를 만드는 데 중요한 길잡이가 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

이 논문은 기계적 해석 가능성 (Mechanistic Interpretability, MI) 분야에서 신경망이 차원 수보다 더 많은 특징 (features) 을 표현하는 '중첩 (Superposition)' 현상을 재조명합니다. 기존 연구는 특징들이 희소하고 상관관계가 없다고 가정하여, 중첩이 발생하는 경우 특징 간 간섭 (interference) 을 최소화하기 위해 기하학적으로 정렬된 다면체 구조를 형성한다고 보았습니다. 그러나 저자들은 현실적인 데이터에서는 특징 간 상관관계가 존재하며, 이로 인해 간섭이 단순히 제거해야 할 노이즈가 아니라 구성적 (constructive) 인 역할을 할 수 있음을 증명합니다.

주요 내용은 다음과 같습니다.

1. 문제 제기 (Problem)

기존 관점의 한계: 중첩 이론은 주로 특징이 희소하고 서로 무관한 (uncorrelated) 이상화된 환경에서 연구되었습니다. 이 관점에서는 특징 간 간섭을 최소화하기 위해 ReLU 와 같은 비선형 활성화 함수가 간섭을 필터링해야 한다고 보며, 이는 정다면체 (regular polytopes) 같은 국소적 구조를 생성한다고 설명합니다.
현실과의 괴리: 실제 언어 모델 (LLM) 을 분석하면 특징들이 무작위로 흩어져 있지 않고, '한 달의 이름'과 같은 순환적 (cyclical) 구조나 의미론적 군집 (semantic clusters) 을 형성하는 것을 관찰할 수 있습니다. 기존 이론은 이러한 구조를 설명하지 못했습니다.
핵심 질문: 현실적인 데이터의 상관관계가 특징의 기하학적 배열에 어떤 영향을 미치며, 간섭이 항상 해로운 것만은 아닐 수 있는가?

2. 방법론 (Methodology)

저자들은 현실적인 데이터 분포를 가진 제어된 환경을 구축하기 위해 Bag-of-Words Superposition (BOWS) 라는 새로운 프레임워크를 도입했습니다.

BOWS 프레임워크: 인터넷 텍스트 (WikiText-103 등) 를 이진 Bag-of-Words (단어 출현 유무) 로 변환하여, 오토인코더 (Autoencoder) 를 통해 저차원 잠재 공간 (latent space) 에 중첩시키는 실험 설정입니다.
실험 설계:
- 데이터: 단어 간 공발생 (co-occurrence) 패턴을 가진 실제 텍스트 데이터를 사용.
- 모델: 선형 오토인코더 (Linear AE) 와 ReLU 를 포함한 비선형 오토인코더 (ReLU AE) 를 비교 학습.
- 변수: 잠재 차원 (latent dimension, $m$ ) 의 크기, 가중치 감쇠 (weight decay) 유무 등을 조절하여 중첩의 기하학적 구조 변화를 관찰.
분석 도구: PCA(주성분 분석), UMAP(차원 축소), 선형 프로브 (linear probe) 등을 사용하여 학습된 특징의 기하학적 구조와 재구성 능력을 정량화했습니다.

3. 주요 기여 및 발견 (Key Contributions & Results)

A. 구성적 간섭 (Constructive Interference) 의 발견

기존 vs. 새로운 관점: 기존에는 간섭을 노이즈로 간주하여 ReLU 로 필터링해야 한다고 보았으나, 저자들은 상관관계가 있는 특징들 사이에서는 간섭이 신호를 강화하는 구성적 역할을 할 수 있음을 보였습니다.
선형 중첩 (Linear Superposition): 데이터의 공분산 행렬이 낮은 랭크 (low-rank) 구조를 가질 때, 특징들은 서로의 공발생 패턴에 따라 배열됩니다. 이때 간섭은 특징 간 공유된 분산을 활용하여 재구성을 돕습니다.
효율성: 이러한 방식은 가중치 노름 (weight norm) 과 랭크 측면에서 재구성이 더 효율적이며, 특히 가중치 감쇠 (weight decay) 가 적용된 모델에서 두드러집니다.

B. 의미론적 군집 및 순환 구조의 설명

의미 군집 (Semantic Clusters): BOWS 실험 결과, ReLU AE 에서도 잠재 공간에 '동사', '인명', '스포츠' 등 의미적으로 관련된 단어들이 군집을 이루는 것을 관찰했습니다. 이는 특징들이 간섭을 최소화하기 위해 분리되는 것이 아니라, 상관관계를 공유하여 함께 배열되기 때문입니다.
순환 구조 (Cyclical Structures): '1 월부터 12 월'까지의 단어들이 원형 (circle) 구조를 형성하는 현상을 재현했습니다. 이는 데이터의 상관관계 (예: 1 월과 2 월이 자주 함께 등장함) 가 PCA 를 통해 원형 구조로 투영되고, 모델이 이를 학습하여 특징 벡터들도 같은 기하학적 구조를 따르게 되기 때문입니다.
간섭의 이중적 역할: 실제 데이터에서는 '구성적 간섭'과 '간섭 필터링 (ReLU)'이 공존합니다. 예를 들어, 'Christmas'를 재구성할 때 'December'나 'snow' 같은 관련 단어들의 간섭은 재구성을 돕지만 (구성적), 관련 없는 맥락에서는 ReLU 와 음의 편향이 오검출 (false positive) 을 막습니다.

C. 가치 인코딩 (Value-Coding) vs. 존재 인코딩 (Presence-Coding)

구분: 저자는 상관관계가 없는 구조 (예: 모듈러 덧셈에서의 원형 구조) 를 설명하기 위해 가치 인코딩 (연속적인 값을 선형적으로 표현) 과 존재 인코딩 (이진 속성 탐지) 을 구분했습니다.
의미: 일부 기하학적 구조는 데이터의 상관관계에서 비롯된 중첩 (선형 중첩) 에 의한 것이지만, 다른 구조 (예: 좌표계, 삼각함수 값) 는 계산 기능을 수행하기 위해 모델이 학습한 가치 인코딩 특징에 기인할 수 있음을 지적했습니다.

4. 의의 및 결론 (Significance)

이론적 확장: 중첩에 대한 기존 이론 (Elhage et al., 2022) 을 보완하여, 현실적인 상관관계가 있는 데이터에서는 간섭이 노이즈가 아닌 자원이 될 수 있음을 증명했습니다.
실제 모델 해석: 실제 언어 모델에서 관찰되는 의미 군집과 순환 구조가 단순한 우연이나 비선형 코딩이 아니라, 데이터 통계와 중첩의 효율성에서 자연스럽게 도출된 것임을 설명합니다.
SAE 및 해석 가능성에 대한 시사점: 희소 자동인코더 (SAE) 와 같은 딕셔너리 학습 접근법이 왜 특정 구조를 발견하는지, 그리고 가중치 감쇠와 병목 (bottleneck) 이 이러한 구조 형성에 어떻게 영향을 미치는지에 대한 통찰을 제공합니다.
향후 연구: BOWS 는 실제 언어 모델의 복잡성을 완전히 포착하지는 못하지만, 중첩과 특징 기하학을 연구하기 위한 통제된 벤치마크로서 SAE 평가 및 새로운 해석 가능성 연구의 기초를 마련했습니다.

요약하자면, 이 논문은 **"상관관계가 있는 특징들은 간섭을 최소화하기 위해 분리되는 것이 아니라, 공유된 분산을 활용하여 재구성을 돕는 방향으로 배열된다"**는 핵심 통찰을 제시하며, 이를 통해 실제 언어 모델에서 관찰되는 복잡한 기하학적 구조들을 설명합니다.