A Typologically Grounded Evaluation Framework for Word Order and Morphology Sensitivity in Multilingual Masked LMs

이 논문은 범세계적 의존성 (Universal Dependencies) 을 기반으로 어순과 굴절 형태에 대한 다국어 마스킹 언어 모델의 의존성을 진단하기 위해 다양한 교란 기법을 적용하고 mBERT 와 XLM-R 의 성능을 평가하는 프레임워크를 제시합니다.

Anna Feldman, Libby Barak, Jing Peng

게시일 2026-03-03
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 가 문장을 이해할 때, 단어의 순서 (위치) 에 더 의존하는지, 아니면 단어의 형태 (문법적 변화) 에 더 의존하는지"**를 다양한 언어로 테스트한 연구입니다.

마치 **"AI 의 뇌가 문장을 읽을 때, '단어가 어디에 서 있는지'를 더 중요하게 생각할까, 아니면 '단어가 어떻게 변형되었는지'를 더 중요하게 생각할까?"**를 확인하는 실험이라고 생각하시면 됩니다.

이 내용을 일상적인 비유와 함께 쉽게 설명해 드릴게요.


🕵️‍♂️ 실험의 주인공: AI 의 두 눈 (mBERT 와 XLM-R)

연구자들은 mBERTXLM-R이라는 두 개의 거대하고 똑똑한 AI 모델을 실험대에 올렸습니다. 이 AI 들은 영어, 중국어, 독일어, 스페인어, 러시아어 등 5 가지 언어를 모두 배운 '다국어 전문가'입니다.

🧪 실험 방법: "문장 뒤섞기"와 "의성어 바꾸기"

연구자들은 이 AI 들에게 문장을 읽게 한 뒤, 의도적으로 문장을 망가뜨려 보았습니다. 마치 요리사가 재료를 섞어보거나, 레시피를 바꿔보면서 요리가 어떻게 변하는지 보는 것과 비슷합니다.

  1. 완전 뒤섞기 (Full Scrambling): 문장 속 모든 단어를 무작위로 섞어버렸습니다.
    • 비유: "사과가 나무에 있다"를 "나무에 사과가 있다"가 아니라 **"있다 사과 나무에"**처럼 완전히 뒤죽박죽으로 만든 상태입니다.
  2. 부분 뒤섞기 (Partial Scrambling): 중요한 단어 (명사, 동사) 만 섞고, 문장의 뼈대 역할을 하는 작은 단어 (접속사, 조사 등) 는 제자리에 두었습니다.
    • 비유: "사과가 나무에 있다"를 **"나무가 사과에 있다"**처럼, 뼈대는 살아있지만 핵심이 흔들린 상태입니다.
  3. 주어 - 목적어 바꾸기 (Head Swap): 문장의 핵심 관계 (누가 무엇을 했는지) 를 뒤바꿨습니다.
    • 비유: "소년이 공을 차다"를 **"공이 소년을 차다"**처럼, 주체와 객체를 뒤집은 상태입니다.
  4. 단어 형태만 남기기 (+L): 문장의 모든 단어를 '원형 (사전 등재형)'으로 바꾸고, AI 에게도 원형으로 답하게 했습니다.
    • 비유: "먹었다, 먹는다, 먹었어"를 모두 **"먹다"**로 통일하고, 문맥을 무시하고 단어의 본질만 보고 맞추게 한 상태입니다.

🌍 언어별 특징: " rigid(딱딱한)" vs "flexible(유연한)"

이 실험은 언어마다 다른 특징을 가진 나라들을 비교했습니다.

  • 영어, 중국어: 단어 순서가 생명입니다. 순서가 바뀌면 의미가 완전히 달라지거나 말이 안 됩니다. (예: "고양이가 쥐를 잡았다" vs "쥐가 고양이를 잡았다")
  • 러시아, 독일, 스페인어: 단어의 **끝 (어미)**이 중요합니다. 순서가 조금 뒤죽박죽이어도, 단어의 어미만 보면 누가 무엇을 했는지 알 수 있습니다. (예: 러시아어는 "고양이가 쥐를 잡았다"를 "쥐를 고양이가 잡았다"라고 해도 문법적 어미로 의미를 파악할 수 있음)

🔍 실험 결과: AI 는 순서 중독자였다!

결과는 놀라웠습니다. AI 는 문법적 어미 (형태) 가 아무리 명확해도, 단어 순서가 무너지면 완전히 당황했습니다.

  1. 완전 뒤섞기: 모든 언어에서 AI 의 정답률은 **거의 0%**로 떨어졌습니다.
    • 비유: 요리사가 재료를 다 섞어놓으면, 아무리 훌륭한 요리사도 "이게 무슨 요리지?"라고 생각하며 실패합니다. AI 도 마찬가지였습니다.
  2. 부분 뒤섞기: 뼈대 (작은 단어) 를 남겨두어도 정답률이 크게 떨어졌습니다.
  3. 형태만 남기기 (+L):
    • 러시아/독일/스페인: 단어 순서가 무너지면, 단어의 어미가 아무리 명확해도 AI 는 못 맞추었습니다.
    • 중국어: 중국어는 어미 변화가 거의 없기 때문에, 원래 순서를 유지할 때만 잘 맞췄고, 순서를 바꾸면 역시 실패했습니다.
    • 흥미로운 점: AI 는 "단어 순서가 무너졌으니, 어미로라도 추리해볼까?"라고 생각하지 않았습니다. 순서 (위치) 정보가 사라지면, 어미 정보로는 전혀 보상을 못 했습니다.

💡 핵심 교훈: AI 는 "위치"에 너무 의존한다

이 연구는 현재 AI 가 문장을 이해할 때 단어의 '순서 (위치)'에 지나치게 의존하고 있음을 보여줍니다.

  • 비유: AI 는 마치 **"책상 위에 물건이 놓인 순서만 보고, 그 물건이 무엇인지 파악하는 사람"**과 같습니다.
    • 만약 책상 위 물건 순서가 바뀌면, 그 물건이 무엇인지 전혀 알 수 없습니다.
    • 반면, 인간은 "아, 이 물건은 '의자'라는 뜻의 어미를 가지고 있네? 순서가 바뀌어도 의자구나!"라고 문법적 특징을 통해 추론할 수 있습니다.

🚀 결론 및 시사점

  1. AI 는 아직 인간처럼 유연하지 않다: AI 는 문법적 규칙 (어미 변화) 을 통해 순서가 무너진 문장을 이해하는 능력이 매우 부족합니다.
  2. 영어 중심의 편향: AI 는 영어처럼 순서가 중요한 언어에 맞춰 훈련되었기 때문에, 순서가 자유로운 언어 (러시아어 등) 에서는 약점을 보입니다.
  3. 향후 과제: 앞으로의 AI 는 단어의 순서뿐만 아니라, 단어의 **형태적 특징 (문법적 어미)**을 더 잘 활용하도록 훈련되어야 합니다. 그래야만 문장이 뒤죽박죽이어도 의미를 파악하는 진정한 '언어 이해'를 할 수 있을 것입니다.

한 줄 요약:

"현재 AI 는 문장의 단어 순서에 너무 집착해서, 순서가 조금만 바뀌어도 문법적 단서 (어미) 를 전혀 활용하지 못하고 망가집니다. 진정한 언어 이해를 위해선 '순서'보다 '문법적 특징'을 더 잘 보도록 가르쳐야 합니다."