VerChol -- Grammar-First Tokenization for Agglutinative Languages

이 논문은 영어 중심의 통계적 토크나이저가 접미어와 접두어가 풍부한 교착어에서 형태소 경계를 왜곡하는 문제를 해결하기 위해, 문법 규칙을 우선시하는 새로운 토큰화 방법인 'VerChol'을 제안합니다.

Prabhu Raja

게시일 2026-03-09
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: AI 가 언어를 '잘게 부수는' 이유

지금까지 AI 가 언어를 배우는 방식은 **통계적 방법 (BPE)**을 사용했습니다. 이는 마치 거대한 레고 상자를 켜고, 가장 자주 나오는 작은 블록 조각들을 찾아내어 단어의 의미를 만드는 방식입니다.

  • 영어의 경우: "Cat"이라는 단어는 이미 하나의 블록이라서 AI 가 쉽게 인식합니다.
  • 접미사 언어 (타밀어, 터키어, 핀란드어, 한국어 등) 의 경우:
    • 예: "집에서"라는 단어는 '집' + '에서'가 붙은 형태입니다.
    • 하지만 통계적 AI 는 이걸 '집'과 '에서'가 아니라, **'지' + 'ㅅ' + 'ㅔ' + 'ㅆ' + 'ㅔ'**처럼 알파벳 (또는 글자) 단위로 쪼개서 봅니다.
    • 결과: AI 는 "집"이라는 개념을 온전히 이해하지 못하고, 조각난 조각들만 보고 추측해야 합니다. 마치 완성된 자동차를 해체해서 나사 하나하나만 보고 차를 이해하려는 것과 같습니다.

2. 해결책: 베르촐 (VerChol) - "문법을 아는 요리사"

이 논문이 제안한 베르촐은 통계가 아니라 언어의 문법 규칙을 먼저 배우는 방식입니다.

  • 비유: 베르촐은 레고 조각을 무작정 섞는 것이 아니라, **완성된 레고 설명서 (문법 규칙)**를 가지고 있습니다.
  • 작동 원리 (4 단계 계단):
    1. 1 단계 (완성된 요리): 이미 알고 있는 단어라면 그대로 가져옵니다. (예: '집')
    2. 2 단계 (재료 분리): 만약 '집에서'라는 낯선 단어가 나오면, 설명서를 보고 '집' (뿌리) 과 '에서' (접미사) 로 자연스럽게 분리합니다.
    3. 3 단계 (음절 분리): 설명서에 없는 단어라도 발음 규칙 (음절) 대로 쪼갭니다.
    4. 4 단계 (글자 단위): 그래도 안 되면 글자 하나하나로 쪼갭니다.

이 방식의 핵심은 **"어떤 단어가 나오든, 그 단어의 '의미 단위 (형태소)'를 깨뜨리지 않는다"**는 것입니다.

3. 놀라운 성과: 더 적은 데이터로 더 똑똑하게

논문은 타밀어 위키백과 (약 774MB) 를 가지고 실험을 했습니다. 결과는 매우 놀랐습니다.

  • 기존 방식 (통계적 AI):
    • 단어 1 개를 표현하는 데 3.52 개의 조각이 필요했습니다.
    • 더 많은 데이터를 학습시키기 위해 거대한 GPU(컴퓨터) 와 엄청난 시간이 필요했습니다.
  • 베르촐 방식 (문법 기반 AI):
    • 단어 1 개를 표현하는 데 1.86 개의 조각만 필요했습니다.
    • 조각 수가 47% 줄었습니다. (즉, 같은 용량으로 두 배 더 많은 글을 처리할 수 있습니다.)
    • 학습 비용은 0 원입니다. 거대한 컴퓨터로 학습할 필요 없이, 사전과 문법 규칙만 있으면 됩니다.

4. 왜 이것이 중요한가요? (창의적 비유)

비유 1: 우편 배달

  • 기존 방식: 우편물을 배달할 때, 편지 한 통을 10 조각으로 잘라서 10 개의 트럭에 실어 보냅니다. (비효율적, 비용 비쌈)
  • 베르촐 방식: 편지 한 통을 통째로 1 개의 트럭에 싣습니다. (효율적, 비용 절감)

비유 2: 새로운 단어 학습

  • 기존 방식: AI 가 "집에서"를 배웠다고 해서 "학교에서"를 알지 못합니다. "학교"라는 새로운 조각이 나오면 다시 혼란스러워합니다.
  • 베르촐 방식: AI 는 "집" + "에서"를 배웠다면, "학교" + "에서"가 나오면 즉시 "학교에서"라고 이해합니다. 문법 규칙을 알기 때문에, 본 적 없는 새로운 단어라도 유추할 수 있습니다.

5. 결론: 언어의 본질을 존중하자

이 논문의 핵심 메시지는 **"인공지능이 언어를 배울 때, 통계적 확률만 믿지 말고 언어가 가진 본질적인 문법 구조를 존중해야 한다"**는 것입니다.

전 세계 인구의 30~40% 가 사용하는 타밀어, 터키어, 핀란드어, 한국어, 스와힐리어 등은 모두 단어가 꼬리에 꼬리를 무는 언어들입니다. 이들에게는 문법을 이해하는 '베르촐' 같은 방식이 훨씬 더 효율적이고 똑똑한 AI 를 만들어줍니다.

마치 고대 타밀어 문법서 '톨카피얌'이 말했듯, 언어의 구조는 통계로 발견하는 것이 아니라, 그 언어를 쓰는 사람들이 이미 알고 있는 지식을 AI 에게 전달하는 것이 가장 빠르고 정확한 길이라는 것입니다.