Sparse Crosscoders for diffing MoEs and Dense models

Each language version is independently generated for its own context, not a direct translation.

🍳 핵심 비유: "전문가 팀 (MoE)" vs "만능 요리사 (Dense)"

인공지능 모델은 데이터를 처리할 때 내부에서 수많은 '특정 기능'을 수행합니다. 이 논문은 두 가지 다른 방식의 AI 를 비교했습니다.

Dense 모델 (만능 요리사): 모든 요리를 할 때, 한 명의 요리사가 모든 재료를 다 챙기고 모든 칼질과 볶음을 다 합니다. 모든 부위가 다 움직입니다.
MoE 모델 (전문가 팀): 한 요리를 할 때, 팀장 (라우터) 이 "오늘은 이 요리는 '생선 전문가'가 하고, '채소 전문가'는 쉬어라"라고 지시합니다. 매번 오직 몇 명만 일하고 나머지는 쉬는 스마트한 팀입니다.

이 두 방식이 실제로 어떻게 정보를 기억하고 처리하는지, 그 내부 구조가 어떻게 다른지 알아보는 것이 이 연구의 목적입니다.

🔍 연구 방법: "공유된 메모장" (Crosscoders)

연구자들은 두 모델의 뇌 속을 들여다보기 위해 **'크로스코더 (Crosscoder)'**라는 특별한 도구를 사용했습니다.

비유: 두 요리사 (모델) 가 같은 재료를 보고 있을 때, 그들이 어떤 **생각 (특징)**을 떠올리는지 기록하는 공유된 메모장입니다.
이 메모장은 두 요리사가 함께 쓰는 공통된 생각과 각자만 쓰는 독자적인 생각을 구분해 줍니다.

📊 주요 발견: 두 모델의 차이점

연구 결과, 두 모델은 정보를 저장하는 방식에서 놀라운 차이를 보였습니다.

1. "개수"의 차이: MoE 는 더 적지만 더 구체적입니다.

Dense 모델 (만능 요리사): 정보를 저장할 때 많은 수의 다양한 생각을 사용합니다. 마치 모든 종류의 식재료를 다룰 수 있는 넓은 주방처럼, 정보가 넓게 퍼져 있습니다.
MoE 모델 (전문가 팀): 더 적은 수의 생각을 사용하지만, 각 생각이 매우 구체적이고 전문적입니다. 마치 "생선 손질"만 전담하는 전문가처럼, 필요한 때에만 딱 맞는 기능을 켭니다.
- 결과: MoE 는 더 적은 '기능'으로 더 효율적으로 일하지만, Dense 모델은 더 많은 '기능'을 골고루 사용합니다.

2. "활성화"의 차이: MoE 는 더 집중합니다.

MoE 의 독자적 기능: MoE 만 가진 기능들은 자주, 그리고 강하게 켜집니다. (전문가들이 일할 때는 정말 열심히 일함)
Dense 의 독자적 기능: Dense 만 가진 기능들은 덜 자주, 더 부드럽게 켜집니다. (만능 요리사는 모든 일을 조금씩 골고루 함)

3. "공통점"의 함정

처음에는 두 모델이 많은 것을 공유한다고 생각했지만, 자세히 보니 **공통된 생각 (Shared Features)**과 독자적인 생각을 구분하는 것이 생각보다 어려웠습니다.
특히 MoE 와 Dense 모델은 구조가 너무 달라서, 기존에 쓰던 분석 방법으로는 두 모델의 공통점을 제대로 찾아내지 못했습니다. 연구자들은 이 문제를 해결하기 위해 공통된 생각을 더 강하게 묶어주는 새로운 규칙을 만들었습니다.

💡 결론: 왜 이 연구가 중요할까요?

이 연구는 **"MoE 라는 효율적인 AI 는 정보를 어떻게 정리하고 있을까?"**에 대한 답을 줍니다.

Dense 모델은 정보를 넓고 일반적인 그물망으로 잡습니다.
MoE 모델은 정보를 작고 단단한 특수 그물로, 필요한 곳에만 집중해서 잡습니다.

이처럼 MoE 가 내부적으로 정보를 더 집중적이고 전문적으로 조직한다는 사실을 알게 된 것은, 앞으로 더 빠르고 똑똑한 AI 를 만들 때 중요한 지도가 될 것입니다. 마치 "어떤 팀 구성 방식이 어떤 일을 할 때 더 효율적인지"를 이해하게 된 것과 같습니다.

📝 한 줄 요약

"효율적인 AI(전문가 팀) 는 적은 수의 '전문 기능'으로 정보를 집중적으로 처리하는 반면, 전통적인 AI(만능 요리사) 는 많은 수의 '일반 기능'으로 정보를 넓게 분산시킨다는 것을 발견했습니다."

Each language version is independently generated for its own context, not a direct translation.

논문 개요: 희소성 기반 크로스코더를 활용한 MoE 와 Dense 모델 비교 분석

이 논문은 혼합 전문가 (Mixture of Experts, MoE) 모델과 Dense(밀집) 모델의 내부 표현 (internal representations) 을 체계적으로 비교 분석하기 위해 크로스코더 (Crosscoders) 기술을 적용한 연구입니다. MoE 는 효율적인 확장이 가능하지만 그 내부 구조에 대한 이해가 부족한 반면, Dense 모델은 해석 가능성 연구가 활발히 진행되어 왔습니다. 본 연구는 두 아키텍처 간의 기능적 차이와 특징 (feature) 조직화 방식을 규명합니다.

1. 연구 문제 (Problem)

MoE 의 내부 구조 불명확성: MoE 는 입력 토큰당 소수의 '전문가 (expert)'만 활성화하는 희소성 (sparsity) 메커니즘을 통해 대규모 모델을 효율적으로 확장합니다. 그러나 Dense 모델에 비해 전문가들이 어떻게 정보를 표현하고, 어떻게 특화되는지에 대한 기계적 해석 연구는 매우 부족합니다.
기존 통찰의 적용 가능성 불확실성: Dense 모델에서 발견된 내부 구조에 대한 통찰 (예: 주의 패턴, 사전 학습을 통한 특징 추출) 이 구조적으로 다른 MoE 모델에도 그대로 적용될 수 있는지, 아니면 근본적인 차이가 있는지 명확하지 않았습니다.
기존 방법론의 한계: 기존 크로스코더 (Crosscoder) 는 주로 같은 모델의 파인튜닝 버전과 베이스 모델을 비교하는 데 사용되었으며, 구조가 완전히 다른 두 모델 (MoE vs Dense) 을 비교할 때 공유되는 특징과 모델 고유의 특징을 명확히 구분하는 데 어려움이 있었습니다.

2. 방법론 (Methodology)

연구팀은 다음과 같은 실험 설계와 방법론을 사용했습니다.

모델 훈련:
- 데이터: 코드, 과학 텍스트, 영어 스토리로 구성된 약 10 억 토큰 (RedPajama, StarCoder, SimpleStories) 데이터셋.
- 모델 구성: 5 레이어의 Dense 모델과 MoE 모델을 훈련시켰습니다. 두 모델은 **활성화된 파라미터 수 (active parameters)**가 동일하도록 설계하여 공정한 비교를 가능하게 했습니다.
- 훈련 조건: 표준 교차 엔트로피 손실 함수를 사용했으며, MoE 는 로드 밸런싱 손실 (Switch load balancing loss) 을 추가하여 훈련했습니다.
크로스코더 (Crosscoder) 적용 및 개선:
- 기본 개념: 크로스코더는 두 모델 (A 와 B) 의 활성화 공간을 동시에 모델링하여 공유 특징과 모델 고유의 특징을 학습하는 희소 오토인코더의 변형입니다.
- BatchTopK 변형 적용: Minder et al. (2025) 의 BatchTopK 방식을 사용하여 연속적인 L1 페널티 대신 하드한 희소성 제약 (Hard sparsity constraint) 을 적용했습니다. 이는 배치 내 상위 활성화 특징만 선택하여 고정된 희소성 예산을 유지하게 합니다.
- 명시적 공유 특징 (Explicit Shared Features) 설계:
  - 기존 연구에서 제안된 공유 특징의 스퍼시티 페널티 비율 ( $\lambda_s/\lambda_f \approx 0.1-0.2$ ) 은 독립적으로 훈련된 MoE 와 Dense 모델 비교 시 성능이 저하됨을 발견했습니다.
  - 이를 해결하기 위해 공유 특징과 전용 특징 간의 페널티 비율을 약 0.7로 조정하여, 두 모델의 활성화 공간 차이가 클 때 공유 특징이 공통 분산을 더 잘 포착하도록 했습니다.
- 특징 분류 지표 ( $\Delta_{norm}$ ):
  - 각 특징의 디코더 벡터 노름 (decoder latent norms) 차이를 기반으로 특징이 어느 모델에 특화되었는지 분류했습니다.
  - $\Delta_{norm} \approx 0.5$ : 공유 특징, $\approx 0$ : MoE 전용, $\approx 1$ : Dense 전용.

3. 주요 결과 (Key Results)

설명력 (Variance Explained):
- 최적화된 BatchTopK 크로스코더는 모델 활성화의 약 87% 분산을 설명하는 높은 성능을 달성했습니다.
특징 수의 차이:
- Dense 모델은 **MoE 모델에 비해 훨씬 많은 고유 특징 (Dense-only features)**을 학습했습니다.
  - MoE 전용 특징: 910 개
  - Dense 전용 특징: 3,226 개
  - 공유 특징: 18,940 개
- 이는 MoE 가 **더 적고 더 구체적 (specialized)**인 특징을 학습하는 반면, Dense 모델은 정보를 더 넓고 일반적인 목적의 특징에 분산시킨다는 것을 시사합니다.
활성화 밀도 (Activation Density) 패턴:
- MoE 전용 특징은 공유 특징보다 높은 활성화 밀도를 보였습니다.
- Dense 전용 특징은 공유 특징보다 낮은 활성화 밀도를 보였습니다.
- 이는 기존 파인튜닝 분석 (두 모델 모두 전용 특징이 높은 밀도를 보임) 과는 다른 패턴으로, MoE 의 희소성 메커니즘이 특징의 특화 (specialization) 를 유도함을 보여줍니다.
공유 특징의 질적 분석:
- 예산이 할당된 공유 특징들은 높은 코사인 유사도 ( $\sim 1$ ) 를 보였으나, $\Delta_{norm}$ 범위 (0.3~0.7) 에 있는 다른 공유 특징들은 코사인 유사도가 낮거나 심지어 반대 방향 ( $\sim -1$ ) 을 보이는 등 명확한 트리모달 (trimodal) 구조를 보이지 않았습니다. 이는 구조가 다른 모델을 비교할 때 기존 크로스코더의 한계를 보여줍니다.

4. 주요 기여 (Key Contributions)

MoE 와 Dense 모델의 체계적 비교: 동일한 활성 파라미터 수를 가진 5 레이어 모델을 훈련하고, 크로스코더를 통해 내부 표현을 정량적으로 비교한 최초의 체계적인 연구 중 하나입니다.
크로스코더 방법론의 확장: 파인튜닝 분석을 넘어, 구조적으로 완전히 다른 아키텍처 (MoE vs Dense) 를 비교하기 위해 크로스코더의 하이퍼파라미터 (페널티 비율) 와 구조를 조정하는 새로운 방법론을 제시했습니다.
MoE 의 내부 작동 원리 규명: MoE 가 희소성 (sparsity) 을 통해 **국소화된 특화 (localized specialization)**를 발전시키고, Dense 모델이 정보를 더 광범위하게 분산시킨다는 새로운 통찰을 제공했습니다.

5. 의의 및 결론 (Significance & Conclusion)

해석 가능성 연구의 확장: 이 연구는 크로스코더가 파인튜닝 분석을 넘어 서로 다른 아키텍처 간의 차이점을 이해하는 데에도 유효한 도구임을 입증했습니다.
MoE 설계에 대한 시사점: MoE 가 적은 수의 특징으로 높은 성능을 내기 위해 '집중된' 표현을 학습한다는 점은, MoE 모델의 효율성과 특화 메커니즘을 이해하는 데 중요한 기초를 제공합니다.
향후 과제: 현재 크로스코더는 구조가 다른 모델 간의 활성화 차이를 완벽하게 포착하지 못하며 (공유 특징의 방향성 문제 등), 향후 발견된 특징들의 의미론적 타당성 (semantic meaningfulness) 을 검증하기 위한 정성적 분석과 더 정교한 크로스코더 아키텍처 개발이 필요하다고 결론지었습니다.

이 논문은 대규모 언어 모델의 아키텍처 선택 (MoE vs Dense) 이 모델의 내부 표현과 특징 학습 방식에 어떤 근본적인 영향을 미치는지에 대한 중요한 기계적 해석 (mechanistic interpretability) 을 제공합니다.