ScribeTokens: Fixed-Vocabulary Tokenization of Digital Ink

이 논문은 디지털 잉크를 고정된 10 개 어휘의 토큰으로 변환하는 'ScribeTokens'를 제안하여, 생성 및 인식 작업에서 기존 벡터 표현을 능가하는 성능을 달성하고 자기지도 학습을 통해 수렴 속도를 획기적으로 개선했다고 요약할 수 있습니다.

Douglass Wang

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 '디지털 잉크 (Digital Ink)', 즉 태블릿이나 스마트폰에 펜으로 쓴 글씨를 컴퓨터가 이해하고 다시 만들어내는 방식을 혁신한 연구입니다.

비유하자면, 이 연구는 **"글씨를 쓰는 행위를 '점'의 나열이 아니라, '작은 발걸음'의 연속으로 해석하는 새로운 언어를 개발"**한 것입니다.

핵심 내용을 쉬운 비유와 함께 설명해 드릴게요.


1. 기존 방식의 문제: "너무 많은 점, 너무 복잡한 지도"

기존에 컴퓨터는 우리가 쓴 글씨를 볼 때, 펜이 움직인 좌표 (x, y) 의 연속으로 보았습니다.

  • 비유: 마치 지도 위에 수천 개의 작은 점을 찍어서 길을 표시하는 것과 같습니다.
  • 문제점:
    • 데이터가 너무 많아요: 글자 하나를 그리기 위해 수백 개의 점이 필요해서 컴퓨터가 처리하기 무겁습니다.
    • 예측이 불안정해요: "다음 점은 어디로 갈까?"라고 예측할 때, 컴퓨터가 헷갈려서 엉뚱한 곳으로 점프하거나 글씨가 뭉개지는 경우가 많습니다.
    • 새로운 글자는 못 읽어요: 훈련하지 않은 이상한 글씨나 새로운 글자가 나오면 컴퓨터가 "이건 뭐지? (OOV, Out-of-Vocabulary)"라고 당황합니다.

2. 새로운 해결책: '스크라이브 토큰 (ScribeTokens)'

저자는 이 문제를 해결하기 위해 **10 가지의 아주 간단한 '기호'**만으로 모든 글씨를 표현하는 방법을 고안했습니다.

  • 핵심 아이디어: "브레세넘 알고리즘 (Bresenham's Algorithm)"

    • 이 알고리즘은 두 점 사이를 연결할 때, 가장 가까운 격자 (눈금) 위를 따라 한 칸씩 이동하는 경로를 찾아줍니다.
    • 비유: 마치 미로 게임에서 "오른쪽, 아래, 대각선"처럼 **작은 발걸음 (Unit Step)**만 남기고 길을 그리는 것과 같습니다.
  • 10 가지 기본 기호 (토큰):

    1. 8 가지 방향: ↗, ↘, ↙, ↖, →, ←, ↑, ↓ (펜이 움직이는 방향)
    2. 2 가지 상태: [펜을 내림 (DOWN)], [펜을 들음 (UP)]
    • 이 10 가지만 있으면, 어떤 복잡한 글씨든 모든 글씨는 이 작은 발걸음들의 조합으로 다시 만들어낼 수 있습니다.
  • 장점:

    • OOV 없음: 세상에 어떤 글씨가 나오든, 결국은 이 10 가지 발걸음으로 나뉘기 때문에 "이건 못 알아본다"는 일이 없습니다.
    • 압축: 컴퓨터는 이 작은 발걸음들을 묶어서 (BPE) 더 큰 덩어리로 만들어 저장하므로, 데이터 양이 획기적으로 줄어듭니다.

3. 놀라운 성과: "글씨 쓰기 vs 글씨 읽기"

이 새로운 방식을 실험해 보니 두 가지 놀라운 결과가 나왔습니다.

A. 글씨를 '생성'할 때 (쓰기)

  • 결과: 기존 방식 (벡터) 은 글씨를 쓰려고 하면 70% 이상 틀리는 반면, 이 새로운 방식은 17% 만 틀렸습니다.
  • 비유: 기존 방식은 "다음 점의 정확한 위치를 예측"하려다 보니 헷갈려서 글씨가 뭉개졌지만, 새로운 방식은 **"다음 발걸음이 어디로 가야 하는지"**를 직관적으로 이해해서 훨씬 자연스러운 글씨를 썼습니다.

B. 글씨를 '읽을' 때 (인식)

  • 결과: 미리 학습 (Pretraining) 을 시키지 않아도, 기존 방식보다 더 잘 읽었습니다.
  • 비유: 다른 방식들은 글씨를 읽기 위해 엄청난 양의 예제 공부가 필요했지만, 이 방식은 글씨의 구조 (발걸음) 를 잘 이해하고 있어서 적은 공부로도 잘 읽었습니다.

4. 비밀 무기: "다음 발걸음 예측 게임" (Pretraining)

연구진은 컴퓨터에게 **"다음에 어떤 발걸음이 나올지 맞춰보는 게임"**을 먼저 시켰습니다.

  • 효과: 이 게임을 먼저 한 컴퓨터는, 실제 글씨를 읽거나 쓰는 작업을 할 때 83 배나 더 빠르게 학습을 마쳤습니다.
  • 이유: 컴퓨터가 "다음 발걸음"을 예측하려면 글자의 모양과 구조를 머릿속에 그려야 하기 때문입니다. 이 '구조 이해' 능력이 글씨 인식과 생성 모두에 도움이 된 것입니다.

5. 결론: 왜 이 연구가 중요한가요?

이 연구는 **"디지털 글씨를 처리하는 방식"**을 단순하고 강력하게 바꿨습니다.

  • 기존: 복잡한 좌표 나열 (지도 위의 점들) → 처리 무거움, 예측 불안정.
  • 새로운 방식 (ScribeTokens): 간단한 발걸음 언어 (미로 게임) → 가볍고, 정확하며, 어떤 글씨든 다 처리 가능.

마치 레고 블록을 생각해보세요. 기존 방식은 각 블록의 정확한 위치를 숫자로 기록하는 것이었다면, 이 새로운 방식은 **"오른쪽, 왼쪽, 위로 쌓기"**라는 간단한 지시어만으로도 어떤 구조든 완벽하게 재현할 수 있게 한 것입니다.

이 기술은 향후 손글씨 인식, 디지털 필기, AI 가 그림을 그리는 기술 등 다양한 분야에서 더 빠르고 정확한 AI 를 만드는 데 큰 역할을 할 것으로 기대됩니다.