DRetHTR: Linear-Time Decoder-Only Retentive Network for Handwritten Text Recognition

이 논문은 손글씨 인식 (HTR) 에서 트랜스포머의 키 - 밸류 캐시 증가로 인한 병목 현상을 해결하기 위해, 선형 시간 복잡도와 메모리 효율성을 제공하면서도 최첨단 정확도를 달성하는 디코더 전용 'DRetHTR' 모델을 제안합니다.

Changhun Kim, Martin Mayr, Thomas Gorges, Fei Wu, Mathias Seuret, Andreas Maier, Vincent Christlein

게시일 2026-02-20
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"손글씨를 읽는 인공지능을 더 빠르고 가볍게 만드는 새로운 방법"**에 대한 이야기입니다.

기존의 최신 기술 (트랜스포머) 은 손글씨를 읽을 때 정확도는 좋지만, 마치 거대한 도서관에서 모든 책을 한 권씩 펼쳐보며 메모장을 채워가는 것처럼 무겁고 느린 문제가 있었습니다. 이 논문은 그 문제를 해결하기 위해 **'DRetHTR'**이라는 새로운 모델을 제안합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 문제: "기억력 과부하"에 시달리는 기존 AI

기존의 손글씨 인식 AI 는 글을 읽을 때마다 **지금까지 본 모든 글자 (키-값 캐시)**를 메모리에 쌓아두면서 다음 글자를 예측합니다.

  • 비유: 마치 책을 읽을 때마다, 처음부터 지금까지 읽은 모든 페이지를 복사해서 책상 위에 쌓아두는 사람과 같습니다.
  • 결과: 글이 길어질수록 책상 (메모리) 은 점점 더 넓어지고, 복사 (계산) 하는 데 시간이 너무 오래 걸립니다.

2. 해결책: "DRetHTR" - 기억을 요약하는 새로운 방식

이 논문에서 만든 DRetHTR은 모든 과거를 기억하는 대신, 중요한 정보만 간추려서 다음 단계로 넘기는 방식을 사용합니다.

  • 비유: 이 사람은 책을 읽을 때, 지금 읽고 있는 문장만 기억하고, 이전 내용은 '핵심 요약 노트' 한 장에 적어두고 다음 페이지로 넘어갑니다.
  • 효과: 책상 (메모리) 크기는 글자 수와 상관없이 일정하게 유지되고, 읽는 속도도 글이 길어지더라도 변하지 않습니다. (선형 시간/메모리)

3. 핵심 기술 1: "눈과 귀"를 나누어 쓰기 (ARMF)

손글씨 인식은 두 가지 정보가 섞여 있습니다. **이미지 (손글씨 모양)**와 텍스트 (문맥).
기존 방식은 이 둘을 모두 같은 방식으로 처리하다가 혼란이 생겼습니다. DRetHTR 은 이 둘을 역할에 따라 다르게 처리합니다.

  • 이미지 처리 (눈): "이 글자가 A 인지 B 인지"를 판단할 때는 **정밀한 비교 (Softmax Attention)**가 필요합니다. 이때는 모든 이미지를 한눈에 훑어보며 정확한 위치를 잡습니다.
  • 텍스트 처리 (귀): "앞에 '사과'가 왔으니 뒤에는 '나무'가 올 것 같다"는 문맥 흐름을 읽을 때는 **간결한 요약 (Retention)**만으로도 충분합니다.
  • 비유: 사진을 볼 때는 확대경 (정밀 분석) 을 쓰지만, 이야기를 이어갈 때는 기억력 (요약) 만으로 충분하다는 철학입니다. 이렇게 나누니 정확도는 유지하면서 속도는 빨라졌습니다.

4. 핵심 기술 2: "층층이 쌓인 망원경" (Layer-wise Gamma Scaling)

AI 는 여러 개의 층 (Layer) 으로 이루어져 있습니다. 기존 방식은 모든 층이 똑같은 방식으로 기억력을 조절했는데, DRetHTR 은 층마다 다른 전략을 씁니다.

  • 아래층 (초기층): 현미경처럼 가까운 글자들 사이의 관계 (예: 'ㄱ'과 'ㅏ'가 붙어 '가'가 됨) 에 집중합니다.
  • 위층 (후기층): 망원경처럼 먼 곳의 문맥 (예: 문장 전체의 주제) 을 파악합니다.
  • 비유: 마치 건물을 지을 때, 1 층은 기초 공사에 집중하고, 10 층은 전망을 보는 것과 같습니다. 이렇게 층마다 초점을 달리하니, 복잡한 손글씨도 더 자연스럽게 이해할 수 있게 됩니다.

5. 실제 성과: 빠르고, 가볍고, 똑똑하다

이 새로운 방식을 적용한 결과, 기존 기술보다 다음과 같은 놀라운 성과를 거두었습니다.

  • 속도: 같은 크기의 모델보다 1.6~1.9 배 더 빠릅니다. (약 2 배 빠름)
  • 메모리: 메모리 사용량이 38~42% 줄었습니다. (휴대폰에서도 더 가볍게 실행 가능)
  • 정확도: 속도가 빨라졌는데도, 정확도는 기존 최고 수준과 비슷하거나 더 좋습니다.

요약

이 논문은 **"손글씨를 읽는 AI 가 더 이상 무거운 짐을 지고 갈 필요는 없다"**는 것을 증명했습니다.
기존의 '모든 것을 기억하며 읽는' 방식 대신, "이미지는 정밀하게, 문맥은 요약해서" 읽는 새로운 방식을 도입함으로써, 빠르고 가벼우면서도 똑똑한 손글씨 인식 기술을 완성했습니다. 이제 역사적인 문서나 복잡한 공문서도 훨씬 더 쉽고 빠르게 디지털화할 수 있게 된 셈입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →