The Token Tax: Systematic Bias in Multilingual Tokenization

Each language version is independently generated for its own context, not a direct translation.

이 논문은 인공지능(AI)이 다양한 언어를 다룰 때 겪는 불공정한 세금에 대해 이야기합니다. 이 세금의 이름은 바로 **'토큰 세금 (Token Tax)'**입니다.

복잡한 전문 용어 대신, 일상적인 비유를 들어 쉽게 설명해 드릴게요.

1. 토큰 세금이란 무엇인가요?

AI 가 글을 읽거나 쓸 때, 단어 하나하나를 작은 조각 (토큰) 으로 잘게 나누어 처리합니다.

영어 (높은 효율): "사과"라는 단어 하나를 AI 가 보자마자 "사과"라는 한 조각으로 인식합니다.
아프리카어 등 (낮은 효율): 같은 "사과"라는 단어가 문법적으로 복잡하면, AI 는 이를 "사", "과", "의", "를"처럼 여러 조각으로 쪼개서 봐야 합니다.

이때 조각이 얼마나 많이 나뉘는지를 '비옥도 (Fertility)'라고 합니다. 조각이 많을수록 AI 는 더 많은 일을 해야 하죠. 마치 같은 양의 쌀을 요리할 때, 영어는 한 그릇으로 되는데, 다른 언어는 그릇을 2 배나 5 배나 더 써야 하는 상황과 같습니다.

2. 이 세금이 왜 문제일까요? (두 가지 피해)

① 지능이 떨어집니다 (정확도 하락)
AI 는 조각이 너무 많으면 머릿속이 복잡해져서 중요한 내용을 놓치기 쉽습니다.

비유: 영어로 된 시험지에는 문제가 10 줄로 되어 있는데, 다른 언어로 된 시험지는 같은 내용인데도 50 줄로 길게 적혀 있습니다. AI 는 50 줄을 다 읽느라 지쳐서 정답을 맞추기 어려워집니다.
연구 결과: 이 논문은 16 개 아프리카 언어와 10 개의 최신 AI 모델을 테스트했더니, 조각이 더 많이 나뉘는 언어일수록 AI 의 정답률이 확실히 떨어졌다는 것을 발견했습니다.

② 돈과 시간이 4 배 더 듭니다 (경제적 불평등)
AI 를 훈련시키거나 작동시키는 비용은 '조각의 수'의 제곱 (2 배가 되면 4 배) 에 비례해서 늘어납니다.

비유: 영어로 책을 한 권 만드는 데 100 만 원이 든다면, 조각이 2 배 많은 언어로 같은 책을 만들려면 400 만 원이 듭니다.
결과: 영어 화자들은 AI 기술을 저렴하고 빠르게 쓸 수 있지만, 다른 언어 화자들은 같은 기술을 사용하려면 4 배나 비싼 비용을 내야 하거나, 훨씬 느린 속도를 감수해야 합니다. 이는 언어적 다양성을 억압하는 '세금'과 같습니다.

3. 최신 AI 는 이 문제를 해결했을까요?

논문은 최신 AI(DeepSeek, o1 등) 가 '추리 (Reasoning)' 능력을 갖추면서 이 격차를 줄였다고 말합니다.

비유: 예전에는 길고 복잡한 문장을 읽으면 바로 포기했지만, 최신 AI 는 "아, 이 긴 문장은 사실 한 마디로 요약할 수 있겠구나"라고 추리해서 문제를 해결합니다.
한계: 하지만 '추리' 능력만으로는 부족합니다. 여전히 조각이 너무 많으면 비용과 시간 문제는 해결되지 않습니다.

4. 결론: 우리는 무엇을 해야 할까요?

이 논문은 AI 개발자들이 다음과 같은 변화를 가져와야 한다고 주장합니다.

기술적 개선: 언어의 특성을 이해하는 새로운 '조각 자르기 (토큰화)' 방식을 개발해야 합니다. (예: 복잡한 단어는 한 조각으로 잘게 썰지 않고 통째로 인식하게 하기)
공정한 가격 정책: 조각이 많은 언어를 쓴다고 해서 비용을 4 배 더 받으면 안 됩니다.
공정한 평가: 다양한 언어의 능력을 제대로 측정할 수 있는 기준을 만들어야 합니다.

한 줄 요약:

"지금 AI 는 영어 화자들에게는 '무료'나 '할인'으로 서비스를 제공하지만, 다른 언어 화자들에게는 '비싼 세금'을 걷고 있습니다. 이 불공정한 시스템을 고쳐야 모든 사람이 AI 의 혜택을公平하게 누릴 수 있습니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

본 논문은 자연어 처리 (NLP) 시스템, 특히 대규모 언어 모델 (LLM) 에서 토크나이저 (Tokenizer) 의 비효율성이 형태론적으로 복잡하고 자원이 부족한 언어 (Low-resource languages) 에 구조적인 불이익을 초래한다는 문제를 제기합니다.

토큰 비효율성 (Fertility): 형태가 복잡한 언어 (예: 아프리카 언어) 는 영어와 같은 고자원 언어에 비해 동일한 의미를 표현하는 데 더 많은 토큰이 필요합니다. 이를 '비옥도 (Fertility, 단어당 토큰 수)'라고 합니다.
계산 비용의 기하급수적 증가: 트랜스포머 (Transformer) 아키텍처의 자기 주의 (Self-attention) 메커니즘은 시퀀스 길이에 대해 $O(n^2)$ 로 확장됩니다. 따라서 토큰 수가 2 배가 되면 계산 비용과 시간은 4 배 ($2^2$) 로 증가합니다.
경제적 및 성능적 불평등: 이로 인해 저자원 언어를 학습하거나 추론할 때 영어 대비 훨씬 높은 비용 (달러, CO2 배출량) 이 발생하고, 모델의 정확도가 낮아지는 '토큰 세금 (Token Tax)'이 부과됩니다. 이는 수십억 명의 화자들을 언어 기술의 혜택에서 배제시키는 체계적 장벽입니다.

2. 방법론 (Methodology)

저자들은 아프리카 언어 16 개와 5 가지 과목 (초등 수학, 글로벌 사실, 고등학교 지리, 거시경제학, 국제법) 으로 구성된 AfriMMLU 벤치마크 (총 9,000 개의 MCQA 항목) 를 활용하여 10 개의 주요 LLM 을 평가했습니다.

데이터셋: AfriMMLU (아프리카 언어 16 개, 5 개 과목, 9,000 개 MCQA).
평가 모델: Llama 3.1, GPT-4o, DeepSeek, o1 등 10 개의 다양한 LLM (추론 모델 포함).
핵심 지표:
- 비옥도 (Fertility): 단어당 토큰 수 ( $F = T/W$ ).
- 정확도 (Accuracy): MCQA 테스트 점수.
- 회귀 분석: 각 모델 - 과목 쌍에 대해 비옥도와 정확도 간의 선형 회귀를 수행하여 기울기 (Slope) 와 설명 분산 ( $R^2$ ) 을 분석했습니다.
- 통계적 검증: 혼합 효과 모델 (Mixed-effect model) 을 사용하여 언어별 편차를 고려한 통계적 유의성을 검증했습니다.

3. 주요 기여 (Key Contributions)

비옥도와 정확도의 상관관계 입증: 10 개 모델과 16 개 언어에 대한 대규모 분석을 통해, 비옥도 (단어당 토큰 수) 가 모델 정확도의 강력한 예측 변수임을 확인했습니다.
추론 모델 (Reasoning Models) 의 효과 분석: DeepSeek, o1 과 같은 추론 중심 모델이 기존 모델 대비 저자원 언어에서도 성능 격차를 크게 줄였음을 최초로 대규모로 비교 분석했습니다.
공공 데이터셋 공개: AfriMMLU 벤치마크 결과 (추론 모델 포함) 와 MMLU 토큰 메트릭 데이터를 공개하여 향후 연구의 기반을 마련했습니다.

4. 주요 결과 (Results)

A. 모델 성능 및 추론 모델의 영향

성능 격차: 아프리카 언어는 영어에 비해 평균 25 점 이상 낮은 정확도를 보였습니다. 프랑스어는 두 언어 사이에서 위치했습니다.
추론 모델의 개선: DeepSeek 및 o1 과 같은 추론 모델은 아프리카 언어에서 비추론 모델 대비 8~~12 점 높은 성능을 보였습니다. 특히 '글로벌 사실' 과 같은 난이도 높은 과목에서 영어와 아프리카 언어 간의 격차가 25 점에서 12~~14 점으로 축소되었습니다.
한계: 추론 능력이 편향을 완화하지만, 토큰화에서 기인한 근본적인 불평등을 완전히 제거하지는 못했습니다.

B. 비옥도 (Fertility) 와 정확도의 관계

부정적 상관관계: 모든 모델과 과목에서 비옥도가 높을수록 정확도가 낮아지는 일관된 경향이 관찰되었습니다.
회귀 분석 결과:
- 기울기 (Slope) 는 -0.08 에서 -0.18 사이였습니다. 즉, 단어당 토큰이 1 개 증가할 때마다 정확도가 8~18% 포인트 감소함을 의미합니다.
- 비옥도는 정확도 변동의 20~50% 를 설명 ( $R^2$ ) 하는 중요한 요인입니다.
- 예: Llama-3.1-405B 의 미시경제학 과목에서 기울기는 -0.185 ( $p=0.002$ ) 로 통계적으로 유의미했습니다.

C. 경제적 영향 (토큰 세금)

학습 비용: 토큰 수가 2 배가 되면 $O(n^2)$ $O (n^{2})$ 확장성으로 인해 학습 비용과 시간이 4 배 증가합니다.
- 예: Llama-3.1-405B 학습 비용은 영어 기준 1 억 500 만 달러지만, 비옥도가 2 배인 언어에서는 4 억 2 천만 달러로 증가합니다.
추론 비용 및 지연: 100 만 개의 영어 토큰에 해당하는 콘텐츠를 생성하는 비용은 비옥도가 2 배인 언어에서 2 배 (예: $5~~20 \rightarrow 10~~40$) 가 되며, 지연 시간 (Latency) 또한 2 배 증가합니다.

5. 의의 및 결론 (Significance & Conclusion)

이 연구는 토큰화 비효율성이 단순한 기술적 결함이 아니라, 저자원 언어 화자들에게 불공정한 경제적 부담과 성능 저하를 초래하는 체계적인 장벽임을 입증했습니다.

기술적 해결책: 형태론을 고려한 토크나이저 (Morphologically aware tokenization) 와 효율적인 어텐션 메커니즘 개발이 시급합니다.
경제적 해결책: 고비옥도 언어를 차별하지 않는 공정한 가격 책정 구조가 필요합니다.
벤치마킹: AfriMMLU 와 같은 다국어 평가 데이터셋의 확장을 통해 공정한 NLP 환경을 조성해야 합니다.

결론적으로, 언어 기술의 혜택이 전 세계 모든 화자에게 공정하게 도달하기 위해서는 토큰화 편향을 해결하는 다각적인 개입이 필수적입니다.

The Token Tax: Systematic Bias in Multilingual Tokenization

1. 토큰 세금이란 무엇인가요?

2. 이 세금이 왜 문제일까요? (두 가지 피해)

3. 최신 AI 는 이 문제를 해결했을까요?

4. 결론: 우리는 무엇을 해야 할까요?

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 주요 결과 (Results)

A. 모델 성능 및 추론 모델의 영향

B. 비옥도 (Fertility) 와 정확도의 관계

C. 경제적 영향 (토큰 세금)

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics