N-gram Injection into Transformers for Dynamic Language Model Adaptation in Handwritten Text Recognition

이 논문은 손글씨 인식에서 훈련 데이터와 다른 언어 분포를 가진 타겟 도메인에서 발생하는 성능 저하를 해결하기 위해, 추가 학습 없이 추론 시 n-그램 언어 모델을 트랜스포머 디코더에 주입하여 동적으로 적응하는 NGI(외부 n-그램 주입) 방법을 제안하고 그 유효성을 입증합니다.

Florent Meyer, Laurent Guichard, Denis Coquenet, Guillaume Gravier, Yann Soullard, Bertrand Coüasnon

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

📝 핵심 주제: "손글씨를 읽는 AI 가 낯선 방언을 만나면 당황하는 이유"

1. 문제 상황: "유창한 외국어 실력, 하지만 방언은 몰라"

상상해 보세요. AI 가 프랑스의 한 고서적 (Source) 을 공부하며 손글씨를 읽는 법을 배웠습니다. 이 AI 는 그 책의 문체와 단어 사용법을 아주 잘 익혔습니다. 마치 프랑스어 원어민처럼 말이죠.

하지만 이제 이 AI 를 다른 지역의 사투리가 섞인 편지 (Target) 를 읽게 하면 어떨까요?

  • AI 의 반응: "이건 내가 배운 프랑스어랑 달라! 단어 순서도 다르고, 쓰는 표현도 이상해!"
  • 결과: AI 는 당황해서 실수를 연발합니다. 비록 글씨체 (시각적 특징) 는 비슷해도, 사용되는 언어의 패턴 (언어적 특징) 이 달라서 인식이 뚝 떨어지는 것입니다.

기존의 최신 AI 기술 (트랜스포머) 은 훈련 데이터에 지나치게 의존하여, 훈련되지 않은 새로운 언어 패턴을 만나면 성능이 급격히 나빠지는 '편향 (Bias)' 문제를 겪고 있었습니다.

2. 해결책: "NGI(언어 주입기) - 실시간 번역기 연결하기"

저자들은 이 문제를 해결하기 위해 NGI (N-gram Injection, n-그램 주입) 라는 방법을 고안했습니다.

  • 비유: AI 가 글을 읽을 때, 옆에 실시간으로 업데이트되는 '사전'이나 '통역사' 를 붙여주는 것입니다.
  • 어떻게 작동할까요?
    1. AI 가 글자를 하나씩 읽어갈 때마다, 옆에 있는 '사전 (n-gram)'이 "지금까지 읽은 문맥을 보면, 다음 글자는 A 가 올 확률이 80%, B 가 20% 이다" 라고 속삭여 줍니다.
    2. 이 '사전'은 훈련 데이터가 아니라, 읽고자 하는 새로운 문서 (예: 사투리 편지) 에 맞춰 미리 만들어둔 것입니다.
    3. AI 는 이 속삭임을 들으며, 자신의 기억 (훈련된 지식) 만 믿지 않고, 실시간으로 들어오는 정보를 참고하여 다음 글자를 예측합니다.

3. 이 방법의 놀라운 점: "재학습 없이 즉시 적응"

기존 방식이라면, 새로운 사투리 편지를 읽게 하려면 AI 를 다시 훈련시켜야 했습니다. 하지만 이 방법은 AI 를 다시 가르칠 필요 없이, 단순히 '사전'만 갈아끼우면 됩니다.

  • 창고에 있는 도구: AI 는 이미 글씨를 읽는 눈 (시각적 능력) 을 가지고 있습니다.
  • 도구 교체: 새로운 문서에 맞춰 '언어 사전 (n-gram)'만 교체하면, AI 는 즉시 그 문서의 언어 패턴에 맞춰 글을 읽을 수 있게 됩니다.
  • 비용: 이 과정은 매우 가볍습니다. 무거운 AI 모델을 다시 훈련시키는 대신, 가볍고 빠른 '통계적 사전'을 연결하는 것뿐입니다.

4. 실험 결과: "어떤 상황에서도 잘 읽는다"

저자들은 이 방법을 여러 손글씨 데이터셋 (IAM, RIMES, 실제 산업용 이름/성 인식 데이터) 에 적용해 보았습니다.

  • 결과: 기존 AI 는 새로운 언어 패턴을 만나면 실수가 2 배 이상 늘었지만, NGI 를 적용한 AI 는 실수가 크게 줄어들었습니다.
  • 특이사항: 글씨체가 비슷하지만 언어 패턴이 완전히 다른 '가장 어려운 상황 (k-means 분할)'에서도, NGI 를 쓴 AI 는 기존 모델보다 훨씬 잘 읽었습니다.

5. 결론: "유연한 AI 의 탄생"

이 논문은 "AI 가 고정된 지식만 믿지 말고, 상황에 맞는 외부 지식을 실시간으로 받아들일 수 있게 하자" 는 메시지를 전달합니다.

  • 기존: "내가 배운 대로만 읽을 거야!" (새로운 상황에서는 망함)
  • 새로운 방법 (NGI): "지금 이 문서는 어떤 패턴인지 알려주는 사전이 있으니, 그걸 참고해서 읽을게!" (새로운 상황에서도 잘 읽음)

이 기술은 손글씨 인식뿐만 아니라, 언어 패턴이 자주 바뀌는 모든 상황 (예: 다른 지역의 문서, 특정 분야의 전문 용어 등) 에서 AI 가 유연하게 적응할 수 있는 길을 열어줍니다. 마치 AI 가 여행 갈 때마다 현지 언어 지도를 챙겨가는 것과 같습니다.