One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

Each language version is independently generated for its own context, not a direct translation.

🧐 핵심 질문: "옷을 갈아입으면 사람이 달라질까?"

상상해 보세요. 같은 사람이 한복을 입고 있다가 양복으로 옷을 갈아입었다고 칩시다.

옷 (글자/스크립트): 한복과 양복은 완전히 다릅니다. 재질도, 모양도, 만드는 법도 다릅니다.
사람 (의미): 하지만 그 안의 '사람'은 똑같습니다. 이름도, 성격도, 하고 싶은 말도 변하지 않죠.

이 연구는 인공지능이 이 '사람'을 볼 때, 옷 (글자) 에만 집중해서 "아, 이건 한복이니까 다른 사람이야!"라고 착각할까? 아니면 **옷을 무시하고 "아, 이건 같은 사람이네!"라고 알아볼까?**를 확인하는 실험입니다.

🇷🇸 실험실: 세르비아어의 '두 얼굴'

연구진은 실험을 위해 세르비아어를 선택했습니다. 왜냐하면 세르비아어는 세상에서 드물게 **두 가지 글자 (로마자와 키릴문자)**로 자유롭게 쓰이기 때문입니다.

로마자 (Latin): 우리가 아는 A, B, C...
키릴문자 (Cyrillic): 러시아에서 쓰는 А, Б, В...

이 두 글자는 완벽하게 1:1 로 매핑됩니다. "안녕하세요"를 로마자로 쓰든 키릴문자로 쓰든 뜻은 100% 똑같습니다. 하지만 인공지능이 글을 읽을 때, 이 두 글자는 **완전히 다른 낱말 (토큰)**로 인식됩니다. 마치 영어와 중국어를 보는 것처럼 전혀 다른 기호로 처리되는 거죠.

🔍 실험 방법: "눈가리개"를 쓴 인공지능

연구진은 Gemma라는 인공지능 모델에 세르비아어 문장을 입력했습니다.

A 문장: "오늘 날씨가 좋네요" (로마자)
B 문장: "오늘 날씨가 좋네요" (키릴문자)
C 문장: "오늘 날씨가 나쁘네요" (로마자, 의미는 다름)

인공지능의 뇌 속에서 어떤 부분이 활성화되는지 (SAE 라는 도구를 사용) 지켜봤습니다.

질문: A 와 B 가 활성화시키는 뇌의 부분이 비슷할까? 아니면 C 와 더 비슷할까?

🎉 놀라운 결과: "옷은 중요하지 않아!"

결과는 매우 명확했습니다.

의미가 같으면 뇌도 같다: 완전히 다른 글자 (로마자 vs 키릴문자) 로 쓰인 똑같은 문장은, 인공지능의 뇌에서 매우 비슷한 부분을 켜뜨렸습니다.
의미가 다르면 뇌도 다르다: 같은 글자 (로마자) 로 쓰였지만 의미가 다른 문장 (날씨가 나쁘네요) 은, 오히려 서로 다른 뇌 부위를 켜뜨렸습니다.
옷보다 사람이 중요: 인공지능은 **글자의 모양 (옷) 보다는 의미 (사람)**에 훨씬 더 민감하게 반응했습니다.

📈 모델이 커질수록 더 똑똑해진다

연구진은 작은 모델 (2 억 파라미터) 에서 거대한 모델 (270 억 파라미터) 까지 실험을 확장했습니다.

작은 모델: 옷을 보고 약간 헷갈려 하기도 했습니다.
거대한 모델: 옷을 완전히 무시하고 **사람 (의미)**만 정확히 알아봤습니다. 모델이 커질수록 이 능력은 더욱 뚜렷해졌습니다.

💡 이 연구가 우리에게 주는 메시지

이 논문은 인공지능이 단순히 "단어 장난"을 하는 게 아니라, 글자라는 껍질을 벗겨낸 진짜 '의미'를 이해하고 있다는 강력한 증거를 보여줍니다.

비유하자면: 인공지능은 "이 글자는 A 로 시작하니까 이거야"라고 외우는 게 아니라, "이 문장은 기분이 좋은 이야기구나"라고 추상적인 개념으로 이해하고 있는 것입니다.
의의: 이는 인공지능이 다양한 언어와 글자를 넘나들며 진정으로 소통할 수 있는 가능성을 보여줍니다. 앞으로 인공지능이 더 발전하면, 우리가 어떤 글자를 쓰든 상관없이 같은 의미로 이해해 줄 거라는 희망을 줍니다.

📝 한 줄 요약

"인공지능은 글자의 옷 (로마자/키릴문자) 에 속지 않고, 그 안에 숨겨진 진짜 사람 (의미) 을 알아보는 능력을 가지고 있으며, 머리가 커질수록 그 능력이 더 뛰어납니다."

Each language version is independently generated for its own context, not a direct translation.

논문 요약: 두 가지 문자 체계, 하나의 언어 - LLM 개념 표현에서의 문자 불변성 탐구

1. 연구 배경 및 문제 정의 (Problem)

대형 언어 모델 (LLM) 이 학습한 특징 (features) 이 추상적인 의미 (abstract meaning) 를 포착하는지, 아니면 텍스트가 쓰여진 방식 (문자 체계, orthography) 에 종속적인지 여부는 기계 해석 가능성 (mechanistic interpretability) 의 핵심 질문입니다.

핵심 문제: LLM 은 서로 다른 문자 체계 (예: 라틴어 vs 키릴어) 로 표현된 동일한 의미를 가진 문장을 어떻게 표현하는가?
기존 한계: 힌두어 - 우르두어 (Hindi-Urdu) 와 같은 언어 쌍은 언어적 유사성이 있지만, 어휘 차이와 문자 간 매핑이 불완전하여 의미와 문자의 영향을 분리하기 어렵습니다.
연구 목표: 의미는 완전히 동일하지만 토큰화 (tokenization) 가 완전히 다른 조건을 만들어, Sparse Autoencoders(SAE) 가 학습한 개념 표현이 문자 체계에 구애받지 않는지 (script-invariant) 검증하는 것입니다.

2. 방법론 (Methodology)

가. 통제된 실험 환경: 세르비아어 이중 문자 (Serbian Digraphia)

선택 이유: 세르비아어는 라틴 문자와 키릴 문자를 일상적으로 혼용하며, 두 문자 간에 손실 없는 변환 (lossless conversion) 이 가능한 결정론적 매핑이 존재합니다.
토큰화 특징: 두 문자 체계는 LLM 에 의해 완전히 다른 토큰 시퀀스로 처리되며, 공유하는 토큰이 전혀 없습니다. 이는 의미는 고정하고 문자 체계만 변경하는 이상적인 통제 실험 환경을 제공합니다.

나. 데이터셋 구성

구성: 30 개의 문장 삼중체 (triplets) 로 구성됨.
- Original: 자연스러운 원문.
- Paraphrase: 의미는 동일하지만 어휘가 다른 재구성 문장.
- Random: 의미적 연결이 없는 무관한 문장.
언어 변형: 각 문장 삼중체는 영어, 세르비아어 (라틴), 세르비아어 (키릴) 로 존재합니다. 총 270 개의 고유 문장.
검증: LaBSE 임베딩을 통해 교차 문자 쌍의 의미 유사성이 거의 최대치임을 확인했습니다.

다. 모델 및 SAE 설정

모델: Gemma 모델 패밀리 (270M ~ 27B 파라미터, 총 5 개 모델).
SAE: Gemma Scope 2 (JumpReLU, 65,536 개 특징, 65k 너비, 중간 L0 희소성).
레이어: 모델의 초기, 중기, 후기 처리 단계를 대표하는 3~4 개의 레이어 선택.
프로세스: 입력 문장 → 토큰화 → 순전파 (마지막 토큰의 숨은 상태 추출) → SAE 인코딩 → 임계값 ( $\tau=0.1$ ) 적용하여 활성화된 특징 집합 ( $F(s)$ ) 추출.

라. 비교 유형 및 평가 지표

지표: 활성화된 특징 집합 간의 자카드 유사도 (Jaccard Similarity) 사용.
주요 비교:
1. Cross-Script Original: 동일한 문장의 라틴 vs 키릴 (핵심 테스트).
2. Cross-Script Paraphrase: 동일한 재구성 문장의 라틴 vs 키릴.
3. Cross-Script Cross-Paraphrase: 한 문자의 원문 vs 다른 문자의 재구성 문장 (기억 기반 설명 배제).
4. Random Baselines: 무관한 문장 간의 유사도 (교차 문자, 교차 언어).

3. 주요 결과 (Key Results)

가. 문자 불변성 (Script Invariance) 의 강력한 증거

동일 문장 (Cross-Script Original): 라틴과 키릴로 된 동일한 문장은 약 0.58 의 자카드 유사도를 보였습니다. 이는 무작위 기준선 (약 0.28) 을 크게 상회합니다.
재구성 문장 (Cross-Script Paraphrase): 재구성된 문장 간 교차 문자 유사도는 약 0.59 로, 동일 문장보다 오히려 약간 높거나 유사한 수준을 유지했습니다.
의미적 위계: 유사도 순위는 교차 문자 원문 (0.58) > 교차 문자 재구성 (0.59) > 교차 문자 교차 재구성 (0.47) > 교차 문자 무작위 (0.28) > 교차 언어 무작위 (0.19) 순으로 나타났습니다. 이는 모델이 문자 체계보다 의미 (의미론적 구조) 에 더 민감함을 시사합니다.
기억 (Memorization) 배제: 훈련 데이터에서 거의 공존하지 않는 조합 (예: 라틴 원문 + 키릴 재구성) 이도 약 0.47 의 높은 유사도를 보여, 단순한 암기 현상이 아님을 입증했습니다.

나. 모델 규모 (Model Scale) 의 영향

규모 증가에 따른 개선: 모델 크기가 커질수록 (270M → 27B) 교차 문자 유사도는 증가 (0.50 → 0.65) 하고, 무작위 기준선은 감소하여 의미와 무의미의 구분이 더 명확해졌습니다.
수렴: 27B 모델에서는 영어, 세르비아어 라틴, 세르비아어 키릴 간의 의미 구별 능력이 거의 동일한 수준으로 수렴했습니다.
교차 재구성 안정성: 교차 문자 교차 재구성 유사도 (약 0.47~0.49) 는 규모에 관계없이 안정적으로 유지되었는데, 이는 더 큰 모델이 교차 문자 간 동일성을 더 잘 인식하는 반면, 단어 선택의 미세한 차이에도 더 민감해지기 때문으로 추정됩니다.

4. 주요 기여 (Contributions)

새로운 평가 패러다임 제안: 세르비아어 이중 문자 (Digraphia) 를 활용하여 학습된 개념 표현이 추상적 의미를 포착하는지, 아니면 특정 문자 토큰에 종속되는지 평가하는 통제된 실험 환경을 제시했습니다.
SAE 특징의 문자 불변성 입증: Gemma 모델 패밀리 전반에 걸쳐, 완전히 다른 토큰화 과정에도 불구하고 동일한 문장이 매우 유사한 SAE 특징 집합을 활성화함을 증명했습니다.
규모에 따른 특성 분석: 모델 규모가 커질수록 문자에 독립적인 표현이 더욱 견고해짐을 정량적으로 규명했습니다.

5. 의의 및 결론 (Significance & Conclusion)

추상적 의미 표현: SAE 가 학습한 특징은 표면적인 토큰화 수준을 넘어선 추상적 의미 구조를 포착할 수 있음을 시사합니다.
해석 가능성의 확장: 다양한 입력 형식 (문자 체계) 을 가진 데이터에 대해 모델이 어떻게 의미를 표현하는지 이해하는 데 중요한 통찰을 제공합니다.
향후 연구: 이 연구는 세르비아어라는 특수한 사례를 넘어, 다중 문자 언어 환경에서의 신경망 표현 연구와 교차 문자 해석 가능성 (cross-script interpretability) 연구의 기초를 마련했습니다.

결론적으로, 이 논문은 LLM 이 문자 체계의 차이를 넘어선 추상적인 의미 수준에서 개념을 표현하고 있음을 SAE 를 통해 실험적으로 증명하였으며, 모델 규모가 커질수록 이러한 불변성이 강화됨을 보여주었습니다.