Each language version is independently generated for its own context, not a direct translation.

📚 "에틴 (Ettin)" 프로젝트: 언어 모델의 '쌍둥이' 실험

이 논문은 인공지능 언어 모델 (LLM) 을 연구하는 사람들이 오랫동안 궁금해했던 한 가지 큰 질문을 해결하기 위해 쓴 것입니다. 바로 **"텍스트를 이해하는 데 특화된 모델 (인코더) 과, 텍스트를 생성하는 데 특화된 모델 (디코더), 과연 어떤 것이 더 잘할까?"**입니다.

기존에는 두 모델을 비교할 때, "비유하자면 2019 년산 소형 트럭과 2024 년산 대형 트럭을 비교하는 꼴"이었습니다. 데이터도 다르고, 훈련 방법도 달라서 공정한 비교가 불가능했죠.

이 연구팀은 **ETTIN(에틴)**이라는 새로운 모델 세트를 만들어 이 문제를 해결했습니다. 에틴은 북유럽 신화에 나오는 '두 개의 머리를 가진 거인'에서 이름을 따왔습니다. 이 거인처럼, **완전히 똑같은 조건 (같은 데이터, 같은 훈련 레시피, 같은 크기)**으로 만들어진 '이해형'과 '생성형' 쌍둥이 모델 5 쌍을 만들어 비교한 것입니다.

🧪 1. 실험 설정: 완벽한 '쌍둥이' 만들기

연구팀은 1700 만 개에서 10 억 개까지 다양한 크기의 모델을 만들었습니다.

인코더 (Encoder): 글을 읽고 내용을 파악하는 데 특화됨 (예: BERT). 양방향으로 글을 읽습니다. (앞에서 뒤로, 뒤에서 앞으로 동시에)
디코더 (Decoder): 다음 단어를 예측하며 글을 써내는 데 특화됨 (예: GPT). 단방향으로 글을 읽습니다. (앞에서 뒤로만)

핵심 포인트: 이 두 모델은 완전히 같은 레시피로 요리했습니다. 같은 재료 (데이터), 같은 오븐 (컴퓨터), 같은 시간 (훈련) 을 사용했죠. 그래서 "어떤 모델이 더 맛있는가?"를 비교할 때, 오븐 온도나 재료 차이 때문이 아니라 모델의 본질적인 차이 때문임을 확신할 수 있습니다.

🏆 2. 실험 결과: 각자의 영역이 다릅니다

결과를 보니 놀라운 사실이 드러났습니다.

🏅 인코더의 승리: "이해와 분류"

상황: "이 문장이 감정이 좋은가 나쁜가?", "이 두 문장은 같은 의미인가?", "이 키워드와 관련된 문서를 찾아줘."
결과: 인코더가 압도적으로 잘했습니다.
비유: 인코더는 도서관 사서 같습니다. 책 (데이터) 을 모두 훑어보고 내용을 파악하는 데는 천재지만, 직접 책을 써내려가는 데는 서툴 수 있습니다.
흥미로운 사실: 인코더는 작은 크기로도 큰 디코더보다 더 잘했습니다. 예를 들어, 4 억 파라미터짜리 인코더는 10 억 파라미터짜리 디코더보다 분류 작업에서 더 높은 점수를 냈습니다.

✍️ 디코더의 승리: "창작과 글쓰기"

상황: "이 이야기를 이어 써줘", "이 문제를 풀어줘", "이런 상황에서 어떤 대화가 오갈까?"
결과: 디코더가 압도적으로 잘했습니다.
비유: 디코더는 소설가 같습니다. 다음 단어를 하나씩 예측하며 이야기를 이어가는 데는 능숙하지만, 전체적인 맥락을 한눈에 파악하는 데는 약할 수 있습니다.

🔄 3. 교차 훈련 실험: "역전"은 가능할까?

많은 사람들이 "디코더 모델에 추가 훈련을 시키면 인코더처럼 잘할까?"라고 생각했습니다. (반대로도요.)
연구팀은 이 가설을 검증하기 위해 500 억 개의 추가 토큰으로 모델을 다시 훈련시켰습니다.

디코더를 인코더로 훈련: 글을 쓰는 데 특화된 소설가에게 사서 교육을 시켰습니다.
인코더를 디코더로 훈련: 사서에게 소설가 교육을 시켰습니다.

결과는? 역전 (Cross-training) 은 실패했습니다.

추가 훈련을 시킨 모델은 원래 모델보다 조금 나아지기는 했지만, 처음부터 그 목적에 맞춰 훈련된 모델 (원래 인코더나 원래 디코더) 에는 절대 이길 수 없었습니다.
비유: 10 년간 축구 선수로만 훈련한 사람에게 갑자기 농구 훈련을 시켜도, 10 년간 농구 선수로만 훈련한 사람에게는 절대 이길 수 없습니다. 생각의 구조 (아키텍처) 가 다르기 때문입니다.

🎭 4. 성별 편견 분석: 같은 데이터, 다른 생각

이 연구의 또 다른 장점은 데이터를 공개했다는 점입니다. 연구팀은 모델이 성별 편견을 어떻게 학습하는지 분석했습니다.

인코더: 중립적인 대명사 (그/그녀) 를 사용하는 경향이 더 강했습니다.
디코더: 남성 성별 편향이 더 강하게 나타났습니다.
교차 훈련: 모델을 다른 목적으로 훈련시켰을 때 편견의 패턴이 어떻게 변하는지 확인할 수 있었습니다. 이는 향후 AI 의 윤리적 문제를 연구하는 데 큰 도움이 될 것입니다.

💡 5. 결론: 우리에게 주는 교훈

이 논문은 우리에게 다음과 같은 중요한 메시지를 줍니다.

용도에 맞는 도구를 쓰세요: 문서를 검색하거나 분류하고 싶다면 인코더를, 글을 쓰거나 창의적인 작업을 하고 싶다면 디코더를 사용해야 합니다.
단순한 훈련으로 해결되지 않습니다: "디코더 모델에 더 많이 훈련시키면 인코더도 잘할 거야"라는 생각은 틀렸습니다. 아키텍처 (구조) 가 다르면 목적에 맞는 훈련이 필수입니다.
공정한 비교의 중요성: 이전 연구들은 서로 다른 조건을 가진 모델을 비교했기에 혼란을 주었습니다. 에틴 (ETTIN) 프로젝트는 동일한 조건에서 비교함으로써 AI 연구의 기준을 세웠습니다.

한 줄 요약:

"글을 읽고 이해하는 '사서'와 글을 쓰는 '소설가'는 서로 다른 재능을 가지고 있으며, 서로의 역할을 바꾸려고 노력하는 것보다 각자의 역할에 집중하는 것이 훨씬 더 효과적입니다."

이 연구는 모든 훈련 데이터와 모델을 공개하여, 앞으로 더 많은 연구자들이 이 '쌍둥이' 모델을 통해 AI 의 학습 과정을 더 깊이 있게 분석할 수 있는 길을 열었습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

대형 언어 모델 (LLM) 커뮤니티는 텍스트 생성에 유리한 Decoder-only(GPT 스타일) 아키텍처에 집중하고 있습니다. 반면, 분류 (Classification) 나 검색 (Retrieval) 과 같은 작업에는 여전히 Encoder-only(BERT 스타일) 모델이 널리 사용되고 있습니다.

기존 연구들은 Encoder 와 Decoder 모델의 성능을 비교해 왔으나, 다음과 같은 한계로 인해 공정한 비교가 불가능했습니다:

비교 대상의 불일치: 모델의 파라미터 수, 아키텍처, 학습 데이터, 학습 스케줄 (Recipe) 이 서로 달랐습니다.
데이터 접근성 부족: 최신 Encoder 모델 (예: ModernBERT) 의 경우 학습 데이터가 공개되지 않아 재현이 어렵습니다.
역방향 적응의 비효율성: Decoder 모델을 Encoder 작업에 적응시키거나 (Cross-objective training), 그 반대의 경우에도 기존에 해당 목적 함수로 학습된 모델보다 성능이 떨어지는지 명확히 규명된 바가 부족했습니다.

2. 방법론 (Methodology)

저자들은 Encoder-only 와 Decoder-only 모델을 동일한 조건에서 학습시켜 공정한 비교를 가능하게 하는 오픈 소스 모델 스위트인 ETTIN을 제안했습니다.

ETTIN 스위트 구성:
- 모델 수: 10 개 모델 (5 쌍의 Encoder/Decoder 페어).
- 크기: 17M ~ 1B 파라미터 (17M, 32M, 68M, 150M, 400M, 1B).
- 학습 데이터: 오픈 소스 데이터 (DCLM, Dolma v1.7, Olmo 등) 를 기반으로 약 2 조 (2T) 토큰까지 학습.
- 학습 레시피: 모든 모델에 동일한 데이터, 아키텍처 설계, 학습 스케줄을 적용.
  - 차이점: Encoder 는 MLM(Masked Language Modeling) 목적 함수와 양방향 주의 (Bidirectional Attention) 를, Decoder 는 CLM(Causal Language Modeling) 목적 함수와 단방향 주의 (Causal Attention) 를 사용.
- 학습 단계:
  1. Base Pre-training: 1.7T 토큰 학습 (다양한 소스 혼합).
  2. Mid-training: 250B 토큰 학습 (고품질 데이터, 컨텍스트 길이 8k 확장).
  3. Decay Phase: 50B 토큰 학습 (최고 품질 데이터, 학습률 감소).
- Cross-Objective Training: 최종 모델을 역방향 목적 함수 (Encoder $\to$ Decoder 또는 Decoder $\to$ Encoder) 로 추가 학습 (50B 토큰) 하여 적응 효과를 검증.

3. 주요 기여 (Key Contributions)

공정한 비교를 위한 최초의 스위트: 동일한 데이터와 레시피로 학습된 Encoder 와 Decoder 모델의 첫 번째 오픈 소스 스위트 (ETTIN) 를 공개했습니다. 이는 아키텍처 자체의 차이를 순수하게 분석할 수 있는 기반을 제공합니다.
SOTA 성능 달성: 동일한 레시피임에도 불구하고, 각 모델 크기에 맞춰 오픈 데이터 기준 SOTA 성능을 달성했습니다.
- Encoder: ModernBERT 를 능가하는 성능.
- Decoder: Llama 3.2 및 SmolLM2 와 경쟁하거나 능가하는 성능.
학습 목적 함수의 본질적 차이 규명:
- Encoder 는 분류/검색 작업에, Decoder 는 생성 작업에 각각 최적화되어 있음을 재확인했습니다.
- 핵심 발견: 역방향 목적 함수로 추가 학습 (Cross-objective training) 을 하더라도, 원래 목적 함수로 학습된 모델의 성능을 완전히 대체하거나 능가할 수 없음을 증명했습니다. (예: 400M Encoder 가 1B Decoder(MNTP 로 추가 학습) 보다 MNLI 에서 더 우수한 성능).
학습 과정의 투명성: 200 개 이상의 체크포인트, 학습 데이터 순서, 학습 데이터 자체를 모두 오픈하여 향후 연구자들이 학습 과정 (예: 편향 분석, 지식 습득 시기 등) 을 심층 분석할 수 있도록 했습니다.

4. 실험 결과 (Results)

단일 목적 함수 성능:
- Encoder: GLUE, MTEB v2, 검색 (MS MARCO) 작업에서 기존 SOTA 모델 (ModernBERT, DistilBERT 등) 보다 우수한 성능을 보였습니다. 특히 작은 크기 (68M 등) 에서도 Distillation(지식 증류) 을 거친 모델들을 능가했습니다.
- Decoder: ARC, HellaSwag, LAMBADA 등 생성 및 추론 작업에서 SmolLM2, Pythia, Llama 3.2 와 비교해 동급 또는 우위의 성능을 보였습니다.
Cross-Objective Training (역방향 적응) 결과:
- Decoder $\to$ Encoder (검색/분류): Decoder 를 MLM(MNTP) 로 추가 학습시켜도, 순수 Encoder 보다 성능이 낮았습니다. 특히 400M 크기의 Encoder 가 1B 크기의 Decoder(추가 학습) 보다 MNLI 정확도에서 더 높았습니다.
- Encoder $\to$ Decoder (생성): Encoder 를 CLM 으로 추가 학습시켜도 생성 성능이 크게 향상되지 않았으며, 크기가 커질수록 Decoder 보다 성능 격차가 벌어졌습니다.
- 결론: 아키텍처와 목적 함수의 조합은 모델의 본질적인 능력을 결정하며, 단순한 추가 학습 (Continued Pre-training) 만으로는 이를 극복하기 어렵습니다.
편향 분석 (Gender Bias):
- WinoGender 벤치마크를 통해 학습 목적 함수가 성별 편향에 미치는 영향을 분석했습니다.
- Encoder 는 Decoder 에 비해 중립적 성별 대명사 사용 확률이 더 높았으며, 두 모델 모두 모델 크기가 커질수록 남성 편향이 감소하는 경향을 보였습니다.

5. 의의 및 시사점 (Significance)

모델 선택 가이드라인: 분류나 검색과 같은 작업에는 대규모 Decoder 모델을 추가 학습하는 것보다, 해당 작업에 최적화된 Encoder 모델을 처음부터 학습하는 것이 더 효율적이고 성능이 우수함을 입증했습니다. (특히 1B 이하의 작은 규모에서 두드러짐).
오픈 사이언스 촉진: 학습 데이터, 체크포인트, 학습 순서 등을 포함한 모든 아티팩트를 공개함으로써, LLM 의 학습 메커니즘, 편향, 데이터 영향력 등에 대한 재현 가능한 연구의 토대를 마련했습니다.
ModernBERT 재현: ModernBERT 의 학습 레시피를 오픈 데이터로 재현하여, 커뮤니티가 이를 기반으로 더 발전된 모델을 개발할 수 있게 했습니다.

이 논문은 LLM 아키텍처 간의 비교 연구에 있어 '사과와 사과 (Apples-to-Apples)' 비교의 중요성을 강조하며, 목적 함수와 아키텍처의 상호작용이 모델의 최종 성능에 결정적인 영향을 미친다는 사실을 체계적으로 증명했습니다.

Seq vs Seq: An Open Suite of Paired Encoders and Decoders

📚 "에틴 (Ettin)" 프로젝트: 언어 모델의 '쌍둥이' 실험

🧪 1. 실험 설정: 완벽한 '쌍둥이' 만들기

🏆 2. 실험 결과: 각자의 영역이 다릅니다

🏅 인코더의 승리: "이해와 분류"

✍️ 디코더의 승리: "창작과 글쓰기"

🔄 3. 교차 훈련 실험: "역전"은 가능할까?

🎭 4. 성별 편견 분석: 같은 데이터, 다른 생각

💡 5. 결론: 우리에게 주는 교훈

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 시사점 (Significance)

유사한 논문

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance