A Typologically Grounded Evaluation Framework for Word Order and Morphology Sensitivity in Multilingual Masked LMs

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 가 문장을 이해할 때, 단어의 순서 (위치) 에 더 의존하는지, 아니면 단어의 형태 (문법적 변화) 에 더 의존하는지"**를 다양한 언어로 테스트한 연구입니다.

마치 **"AI 의 뇌가 문장을 읽을 때, '단어가 어디에 서 있는지'를 더 중요하게 생각할까, 아니면 '단어가 어떻게 변형되었는지'를 더 중요하게 생각할까?"**를 확인하는 실험이라고 생각하시면 됩니다.

이 내용을 일상적인 비유와 함께 쉽게 설명해 드릴게요.

🕵️‍♂️ 실험의 주인공: AI 의 두 눈 (mBERT 와 XLM-R)

연구자들은 mBERT와 XLM-R이라는 두 개의 거대하고 똑똑한 AI 모델을 실험대에 올렸습니다. 이 AI 들은 영어, 중국어, 독일어, 스페인어, 러시아어 등 5 가지 언어를 모두 배운 '다국어 전문가'입니다.

🧪 실험 방법: "문장 뒤섞기"와 "의성어 바꾸기"

연구자들은 이 AI 들에게 문장을 읽게 한 뒤, 의도적으로 문장을 망가뜨려 보았습니다. 마치 요리사가 재료를 섞어보거나, 레시피를 바꿔보면서 요리가 어떻게 변하는지 보는 것과 비슷합니다.

완전 뒤섞기 (Full Scrambling): 문장 속 모든 단어를 무작위로 섞어버렸습니다.
- 비유: "사과가 나무에 있다"를 "나무에 사과가 있다"가 아니라 **"있다 사과 나무에"**처럼 완전히 뒤죽박죽으로 만든 상태입니다.
부분 뒤섞기 (Partial Scrambling): 중요한 단어 (명사, 동사) 만 섞고, 문장의 뼈대 역할을 하는 작은 단어 (접속사, 조사 등) 는 제자리에 두었습니다.
- 비유: "사과가 나무에 있다"를 **"나무가 사과에 있다"**처럼, 뼈대는 살아있지만 핵심이 흔들린 상태입니다.
주어 - 목적어 바꾸기 (Head Swap): 문장의 핵심 관계 (누가 무엇을 했는지) 를 뒤바꿨습니다.
- 비유: "소년이 공을 차다"를 **"공이 소년을 차다"**처럼, 주체와 객체를 뒤집은 상태입니다.
단어 형태만 남기기 (+L): 문장의 모든 단어를 '원형 (사전 등재형)'으로 바꾸고, AI 에게도 원형으로 답하게 했습니다.
- 비유: "먹었다, 먹는다, 먹었어"를 모두 **"먹다"**로 통일하고, 문맥을 무시하고 단어의 본질만 보고 맞추게 한 상태입니다.

🌍 언어별 특징: " rigid(딱딱한)" vs "flexible(유연한)"

이 실험은 언어마다 다른 특징을 가진 나라들을 비교했습니다.

영어, 중국어: 단어 순서가 생명입니다. 순서가 바뀌면 의미가 완전히 달라지거나 말이 안 됩니다. (예: "고양이가 쥐를 잡았다" vs "쥐가 고양이를 잡았다")
러시아, 독일, 스페인어: 단어의 **끝 (어미)**이 중요합니다. 순서가 조금 뒤죽박죽이어도, 단어의 어미만 보면 누가 무엇을 했는지 알 수 있습니다. (예: 러시아어는 "고양이가 쥐를 잡았다"를 "쥐를 고양이가 잡았다"라고 해도 문법적 어미로 의미를 파악할 수 있음)

🔍 실험 결과: AI 는 순서 중독자였다!

결과는 놀라웠습니다. AI 는 문법적 어미 (형태) 가 아무리 명확해도, 단어 순서가 무너지면 완전히 당황했습니다.

완전 뒤섞기: 모든 언어에서 AI 의 정답률은 **거의 0%**로 떨어졌습니다.
- 비유: 요리사가 재료를 다 섞어놓으면, 아무리 훌륭한 요리사도 "이게 무슨 요리지?"라고 생각하며 실패합니다. AI 도 마찬가지였습니다.
부분 뒤섞기: 뼈대 (작은 단어) 를 남겨두어도 정답률이 크게 떨어졌습니다.
형태만 남기기 (+L):
- 러시아/독일/스페인: 단어 순서가 무너지면, 단어의 어미가 아무리 명확해도 AI 는 못 맞추었습니다.
- 중국어: 중국어는 어미 변화가 거의 없기 때문에, 원래 순서를 유지할 때만 잘 맞췄고, 순서를 바꾸면 역시 실패했습니다.
- 흥미로운 점: AI 는 "단어 순서가 무너졌으니, 어미로라도 추리해볼까?"라고 생각하지 않았습니다. 순서 (위치) 정보가 사라지면, 어미 정보로는 전혀 보상을 못 했습니다.

💡 핵심 교훈: AI 는 "위치"에 너무 의존한다

이 연구는 현재 AI 가 문장을 이해할 때 단어의 '순서 (위치)'에 지나치게 의존하고 있음을 보여줍니다.

비유: AI 는 마치 **"책상 위에 물건이 놓인 순서만 보고, 그 물건이 무엇인지 파악하는 사람"**과 같습니다.
- 만약 책상 위 물건 순서가 바뀌면, 그 물건이 무엇인지 전혀 알 수 없습니다.
- 반면, 인간은 "아, 이 물건은 '의자'라는 뜻의 어미를 가지고 있네? 순서가 바뀌어도 의자구나!"라고 문법적 특징을 통해 추론할 수 있습니다.

🚀 결론 및 시사점

AI 는 아직 인간처럼 유연하지 않다: AI 는 문법적 규칙 (어미 변화) 을 통해 순서가 무너진 문장을 이해하는 능력이 매우 부족합니다.
영어 중심의 편향: AI 는 영어처럼 순서가 중요한 언어에 맞춰 훈련되었기 때문에, 순서가 자유로운 언어 (러시아어 등) 에서는 약점을 보입니다.
향후 과제: 앞으로의 AI 는 단어의 순서뿐만 아니라, 단어의 **형태적 특징 (문법적 어미)**을 더 잘 활용하도록 훈련되어야 합니다. 그래야만 문장이 뒤죽박죽이어도 의미를 파악하는 진정한 '언어 이해'를 할 수 있을 것입니다.

한 줄 요약:

"현재 AI 는 문장의 단어 순서에 너무 집착해서, 순서가 조금만 바뀌어도 문법적 단서 (어미) 를 전혀 활용하지 못하고 망가집니다. 진정한 언어 이해를 위해선 '순서'보다 '문법적 특징'을 더 잘 보도록 가르쳐야 합니다."

Each language version is independently generated for its own context, not a direct translation.

이 논문은 다국어 마스킹 언어 모델 (Multilingual Masked Language Models, MLM) 이 단어 순서 (word order) 와 형태소 정보 (morphology) 중 어느 것에 더 의존하는지를 평가하기 위한 형식론적 기반 (Typologically Grounded) 진단 프레임워크를 제시합니다.

주요 내용은 다음과 같습니다.

1. 연구 배경 및 문제 제기

문제: mBERT 와 XLM-R 과 같은 다국어 트랜스포머 모델은 뛰어난 성능을 보이지만, 예측을 수행할 때 실제로 어떤 언어적 단서 (단어 순서 vs. 굴절 형태소) 에 의존하는지는 불분명합니다.
가설: 영어나 중국어와 같이 고정된 어순을 가진 언어는 순서에 의존하는 반면, 러시아어나 독일어와 같이 풍부한 형태소 (격, 성, 수 등) 를 가진 언어는 어순이 자유로울 수 있습니다. 만약 다국어 모델이 어순에 과도하게 의존한다면, 형태소가 풍부한 언어나 어순이 자유로운 언어에서 편향되거나 취약할 수 있습니다.
목표: 제어된 교란 (perturbation) 하에서 모델이 각 단서에 얼마나 민감하게 반응하는지를 정량화하여, 모델의 형식론적 일반화 능력과 공정성을 평가하는 진단 도구를 개발하는 것입니다.

2. 방법론 (Methodology)

저자들은 추론 시 (inference-time) 에 Universal Dependencies (UD) 트리뱅크를 활용하여 다음과 같은 제어된 교란을 적용했습니다.

평가 대상 모델: mBERT, XLM-R
평가 대상 언어: 영어 (EN), 중국어 (ZH), 독일어 (DE), 스페인어 (ES), 러시아어 (RU) (부록에 터키어 포함)
교란 조건 (Perturbations):
1. Full Scrambling: 문장 내 모든 단어 토큰을 무작위로 섞음.
2. Part Scrambling: 기능어 (function words) 는 고정하고, 내용어 (content words) 만 무작위로 섞음.
3. Head-Dependent Swap: UD 트리 구조를 기반으로 각 헤드 (head) 와 그 의존어 (dependent) 중 하나를 위치만 교환 (문장 구조의 핵심 관계를 교란).
4. Lemma Substitution (+L): 문장 내 모든 토큰과 마스킹된 타겟을 UD LEMMA(사전 등어) 로 대체하여 형태소 정보 (굴절) 를 제거한 상태에서 평가.
평가 지표:
- Top-1 정확도: 마스킹된 단어를 정확히 복원하는 비율.
- Top-5 정확도: 정답이 상위 5 개 후보 안에 포함되는 비율 (부분적 지식 파악).
- 민감도 (Sensitivity, $S$ ): 교란 조건에서의 정확도 하락 폭.
- 상호작용 (Interaction, $I$ ): 교란과 Lemma 대체가 결합되었을 때의 효과가 단순 합보다 큰지 (시너지/보완) 또는 작은지 (중복/겹침) 를 측정.

3. 주요 결과 (Key Results)

단어 순서의 지배적 역할: 모든 언어와 모델에서 Full Scrambling은 단어 복원 정확도를 거의 0 에 수렴하게 만들었습니다. 이는 모델이 어순 정보에 절대적으로 의존하고 있음을 시사합니다.
부분적 교란의 영향: 기능어를 고정하거나 (Part), 헤드 - 의존어 관계만 교란 (Head) 하더라도 정확도가 크게 하락했습니다. 특히 고정된 SVO 어순을 가진 영어는 구조적 교란에 매우 취약했습니다.
형태소 정보 (+L) 의 한계:
- 중국어: 표면 형태와 어형 (lemma) 이 거의 동일하여 +L 조건이 거의 영향을 미치지 않았습니다.
- 독일어/스페인어/러시아어: +L 조건은 정확도를 상당히 낮췄습니다. 이는 모델이 형태소 정보를 활용하고 있음을 시사하지만, 어순이 파괴된 상태 (Scrambling) 에서는 형태소 정보만으로는 손실을 보상하지 못했습니다.
- 결론: Lemma 대체 (+L) 는 어순 손실을 보상하지 못하며, 오히려 정확도를 추가로 떨어뜨리는 경우가 많았습니다.
비가산성 (Non-additivity): Full Scrambling 과 +L 을 결합한 경우의 정확도 하락은 두 조건이 독립적으로 작용했을 때의 합보다 작았습니다 ( $I > 0$ ). 이는 어순과 형태소 정보가 **상호 보완적 (complementary) 이기보다는 부분적으로 중복 (overlapping)**되어 있다는 것을 의미합니다. 즉, 한 단서가 사라지면 다른 단서가 그 역할을 완전히 대체하지 못합니다.
모델 간 차이: mBERT 와 XLM-R 은 언어별 베이스라인 성능에서 큰 차이를 보였습니다 (특히 중국어).

4. 주요 기여 (Contributions)

형식론적 기반 평가 프레임워크: 다양한 언어 유형 (고정 어순, 풍부한 형태소 등) 을 가진 언어를 대상으로 어순과 형태소의 상대적 역할을 체계적으로 진단하는 프로토콜을 제안했습니다.
구조적 교란 기법: 단순한 무작위 섞기를 넘어, UD 트리 구조를 활용한 'Head-Dependent Swap'을 도입하여 문법적 관계의 핵심을 교란하는 새로운 테스트를 제공했습니다.
Lemma Normalization 진단: 문장 전체를 Lemma 로 변환하는 (+L) 방식을 통해 모델이 표면 형태 (surface form) 대신 형태소적 구조에 얼마나 의존하는지 파악하는 coarse-grained 진단을 수행했습니다.
공개 리소스: 교란 스크립트, 균형 잡힌 평가 데이터셋, 그리고 모든 실행 결과 (JSONL) 를 공개하여 재현성을 보장했습니다.

5. 의의 및 결론

모델의 취약성: 현재 다국어 MLM 들은 여전히 '위치 기반 (positional)' 작업에 치중되어 있으며, 어순 정보가 파괴되면 형태소 정보만으로는 문맥을 이해하지 못합니다.
편향의 위험: 영어 중심의 훈련 데이터와 고정 어순에 대한 의존은 형태소가 풍부하거나 어순이 자유로운 언어의 성능 저하를 초래할 수 있습니다.
향후 방향:
- 절대적 어순에 대한 과도한 의존을 줄이고 문법적 신호를 보존하는 학습 목표 (예: 순서 불변 보조 작업) 개발.
- 하위 단어 (subword) 의존이 아닌 명시적인 형태소 구조를 예측하는 헤드 개발.
- 인간과 모델이 어순이 불확실할 때 사용하는 단서의 차이를 분석하기 위한 constituency 기반 교란 및 인간 베이스라인 추가.

요약하자면, 이 연구는 다국어 언어 모델이 단어 순서에 지나치게 의존하고 있으며, 형태소 정보만으로는 어순 교란을 극복하지 못한다는 사실을 체계적으로 증명했습니다. 이는 향후 더 강건한 다국어 모델 개발을 위해 형식론적 다양성을 고려한 학습 및 평가가 필요함을 시사합니다.

A Typologically Grounded Evaluation Framework for Word Order and Morphology Sensitivity in Multilingual Masked LMs

🕵️‍♂️ 실험의 주인공: AI 의 두 눈 (mBERT 와 XLM-R)

🧪 실험 방법: "문장 뒤섞기"와 "의성어 바꾸기"

🌍 언어별 특징: " rigid(딱딱한)" vs "flexible(유연한)"

🔍 실험 결과: AI 는 순서 중독자였다!

💡 핵심 교훈: AI 는 "위치"에 너무 의존한다

🚀 결론 및 시사점

1. 연구 배경 및 문제 제기

2. 방법론 (Methodology)

3. 주요 결과 (Key Results)

4. 주요 기여 (Contributions)

5. 의의 및 결론

유사한 논문

When Prompt Optimization Becomes Jailbreaking: Adaptive Red-Teaming of Large Language Models

DuCCAE: A Hybrid Engine for Immersive Conversation via Collaboration, Augmentation, and Evolution

Spelling Correction in Healthcare Query-Answer Systems: Methods, Retrieval Impact, and Empirical Evaluation

Can Structural Cues Save LLMs? Evaluating Language Models in Massive Document Streams

Enhancing Legal LLMs through Metadata-Enriched RAG Pipelines and Direct Preference Optimization