N-gram Injection into Transformers for Dynamic Language Model Adaptation in Handwritten Text Recognition

Each language version is independently generated for its own context, not a direct translation.

📝 핵심 주제: "손글씨를 읽는 AI 가 낯선 방언을 만나면 당황하는 이유"

1. 문제 상황: "유창한 외국어 실력, 하지만 방언은 몰라"

상상해 보세요. AI 가 프랑스의 한 고서적 (Source) 을 공부하며 손글씨를 읽는 법을 배웠습니다. 이 AI 는 그 책의 문체와 단어 사용법을 아주 잘 익혔습니다. 마치 프랑스어 원어민처럼 말이죠.

하지만 이제 이 AI 를 다른 지역의 사투리가 섞인 편지 (Target) 를 읽게 하면 어떨까요?

AI 의 반응: "이건 내가 배운 프랑스어랑 달라! 단어 순서도 다르고, 쓰는 표현도 이상해!"
결과: AI 는 당황해서 실수를 연발합니다. 비록 글씨체 (시각적 특징) 는 비슷해도, 사용되는 언어의 패턴 (언어적 특징) 이 달라서 인식이 뚝 떨어지는 것입니다.

기존의 최신 AI 기술 (트랜스포머) 은 훈련 데이터에 지나치게 의존하여, 훈련되지 않은 새로운 언어 패턴을 만나면 성능이 급격히 나빠지는 '편향 (Bias)' 문제를 겪고 있었습니다.

2. 해결책: "NGI(언어 주입기) - 실시간 번역기 연결하기"

저자들은 이 문제를 해결하기 위해 NGI (N-gram Injection, n-그램 주입) 라는 방법을 고안했습니다.

비유: AI 가 글을 읽을 때, 옆에 실시간으로 업데이트되는 '사전'이나 '통역사' 를 붙여주는 것입니다.
어떻게 작동할까요?
1. AI 가 글자를 하나씩 읽어갈 때마다, 옆에 있는 '사전 (n-gram)'이 "지금까지 읽은 문맥을 보면, 다음 글자는 A 가 올 확률이 80%, B 가 20% 이다" 라고 속삭여 줍니다.
2. 이 '사전'은 훈련 데이터가 아니라, 읽고자 하는 새로운 문서 (예: 사투리 편지) 에 맞춰 미리 만들어둔 것입니다.
3. AI 는 이 속삭임을 들으며, 자신의 기억 (훈련된 지식) 만 믿지 않고, 실시간으로 들어오는 정보를 참고하여 다음 글자를 예측합니다.

3. 이 방법의 놀라운 점: "재학습 없이 즉시 적응"

기존 방식이라면, 새로운 사투리 편지를 읽게 하려면 AI 를 다시 훈련시켜야 했습니다. 하지만 이 방법은 AI 를 다시 가르칠 필요 없이, 단순히 '사전'만 갈아끼우면 됩니다.

창고에 있는 도구: AI 는 이미 글씨를 읽는 눈 (시각적 능력) 을 가지고 있습니다.
도구 교체: 새로운 문서에 맞춰 '언어 사전 (n-gram)'만 교체하면, AI 는 즉시 그 문서의 언어 패턴에 맞춰 글을 읽을 수 있게 됩니다.
비용: 이 과정은 매우 가볍습니다. 무거운 AI 모델을 다시 훈련시키는 대신, 가볍고 빠른 '통계적 사전'을 연결하는 것뿐입니다.

4. 실험 결과: "어떤 상황에서도 잘 읽는다"

저자들은 이 방법을 여러 손글씨 데이터셋 (IAM, RIMES, 실제 산업용 이름/성 인식 데이터) 에 적용해 보았습니다.

결과: 기존 AI 는 새로운 언어 패턴을 만나면 실수가 2 배 이상 늘었지만, NGI 를 적용한 AI 는 실수가 크게 줄어들었습니다.
특이사항: 글씨체가 비슷하지만 언어 패턴이 완전히 다른 '가장 어려운 상황 (k-means 분할)'에서도, NGI 를 쓴 AI 는 기존 모델보다 훨씬 잘 읽었습니다.

5. 결론: "유연한 AI 의 탄생"

이 논문은 "AI 가 고정된 지식만 믿지 말고, 상황에 맞는 외부 지식을 실시간으로 받아들일 수 있게 하자" 는 메시지를 전달합니다.

기존: "내가 배운 대로만 읽을 거야!" (새로운 상황에서는 망함)
새로운 방법 (NGI): "지금 이 문서는 어떤 패턴인지 알려주는 사전이 있으니, 그걸 참고해서 읽을게!" (새로운 상황에서도 잘 읽음)

이 기술은 손글씨 인식뿐만 아니라, 언어 패턴이 자주 바뀌는 모든 상황 (예: 다른 지역의 문서, 특정 분야의 전문 용어 등) 에서 AI 가 유연하게 적응할 수 있는 길을 열어줍니다. 마치 AI 가 여행 갈 때마다 현지 언어 지도를 챙겨가는 것과 같습니다.

Each language version is independently generated for its own context, not a direct translation.

이 논문은 손글씨 텍스트 인식 (HTR, Handwritten Text Recognition) 분야에서 트랜스포머 기반 모델이 훈련 데이터와 테스트 데이터 간의 언어 분포 차이 (Language Shift) 로 인해 성능이 급격히 저하되는 문제를 해결하기 위해 제안된 동적 언어 모델 적응을 위한 n-gram 주입 (NGI, n-gram Injection) 방법을 다룹니다.

주요 내용은 다음과 같습니다.

1. 문제 정의 (Problem Statement)

현재의 한계: 최근 트랜스포머 기반의 인코더 - 디코더 네트워크는 HTR 에서 뛰어난 성능을 보이지만, 훈련 시 학습된 언어 분포 (Source) 와 테스트 시의 언어 분포 (Target) 가 다를 경우 인식 정확도가 크게 떨어집니다.
편향 (Bias) 문제: 신경망이 훈련 데이터의 언어 규칙을 암묵적으로 학습하여 편향되기 때문에, 새로운 도메인 (예: 다른 형태의 문서, 다른 어휘 집합) 에 적용될 때 성능이 급감합니다.
기존 방법의 부족: 기존 언어 모델 (LM) 결합 방식은 주로 사후 처리 (Post-processing) 나 추가적인 훈련 데이터 (이미지 - 텍스트 쌍) 를 필요로 하여 비효율적이거나 실시간 적용에 제약이 있습니다.

2. 제안 방법론 (Methodology)

저자들은 **n-gram 주입 (NGI)**이라는 경량화된 방법을 제안하여, 추론 시 외부 n-gram 언어 모델을 네트워크에 동적으로 주입하는 방식을 개발했습니다.

핵심 아이디어:
- 트랜스포머 디코더의 **입력 단계 (Early Injection)**에 외부 n-gram 확률 분포를 직접 주입합니다.
- 이를 통해 네트워크가 훈련 데이터의 언어 편향에 의존하는 대신, 테스트 시점에 선택된 목표 도메인의 언어 모델에 적응하도록 학습시킵니다.
- 동적 전환: 추가적인 훈련 없이도 추론 시점에 목표 도메인에 맞는 n-gram 모델을 쉽게 교체할 수 있습니다.
구체적 기술:
1. n-gram 분포 벡터 생성: ARPA 형식의 로그 확률과 백오프 (back-off) 가중치를 기반으로 현재 컨텍스트에 따른 모든 문자의 n-gram 확률 분포 벡터 ( $S_{NGI}$ ) 를 계산합니다.
2. 노이즈 추가 (Noise Injection): 훈련 중 과적합을 방지하고 추론 시 보지 못한 n-gram 벡터에 적응할 수 있도록, 분포 벡터에 임의의 노이즈 ( $\epsilon$ ) 를 추가합니다.
3. 주입 (Injection): 노이즈가 추가된 n-gram 벡터를 프론트 - 포워드 (Feed-forward) 프로젝션 층을 통과시킨 후, 기존 문자 임베딩과 위치 인코딩과 합쳐져 트랜스포머 디코더의 입력 ( $X$ ) 으로 사용됩니다.
4. 가중치 네트워크 (WAN): 제안된 방법은 경량화된 **Word Attention Network (WAN)**라는 새로운 FCN-트랜스포머 아키텍처에 적용되었습니다. WAN 은 DAN 과 같은 대형 모델의 1/10 크기 (210 만 파라미터) 로, 적은 데이터로도 훈련이 가능합니다.

3. 주요 기여 (Key Contributions)

동적 언어 적응: 추가적인 이미지 - 텍스트 쌍 훈련 없이, 추론 시점에 외부 n-gram 모델을 교체함으로써 언어 분포 시프트에 대응하는 최초의 HTR 적응 전략을 제시했습니다.
초기 주입 (Early Injection): 디코더의 입력 단계에서 언어 정보를 주입하여 네트워크가 시각적 모호성과 언어 정보를 통합적으로 학습하도록 유도했습니다. 이는 사후 처리 (Re-scoring) 의 계산 오버헤드를 줄이고 더 나은 적응을 가능하게 합니다.
경량화 및 효율성: n-gram 추론 비용이 낮고, 추가적인 프론트 - 포워드 층의 파라미터 비용이 미미하여 전체 시스템의 효율성을 유지합니다.
새로운 벤치마크: 언어 편향을 극대화하기 위해 IAM 과 RIMES 데이터셋을 커스텀 분할 (Lexicon 분할, k-means 분할) 하여 공개하고, 산업용 데이터셋 (N2S) 을 포함하여 다양한 시나리오를 평가했습니다.

4. 실험 결과 (Results)

데이터셋: IAM(영어), RIMES(프랑스어), N2S(이름/성 인식) 의 5 가지 분할 데이터셋에서 실험 수행.
성능 향상:
- Source vs Target 격차 축소: 기존 트랜스포머 모델 (TrOCR, DAN 등) 은 타겟 데이터에서 CER(문자 오류율) 이 2 배 이상 증가했으나, WAN+NGI는 타겟 데이터에서도 성능을 크게 유지했습니다.
- 구체적 수치:
  - IAM(k-means 분할): WAN 단독 23.4% CER $\rightarrow$ WAN+NGI 10.1% CER 로 대폭 개선.
  - RIMES(k-means 분할): WAN 단독 29.9% CER $\rightarrow$ WAN+NGI 19.2% CER 로 개선.
  - N2S: 타겟 CER 를 6.3% 에서 4.5% 로 낮춤.
비교: NGI 는 사후 처리 (Post-processing LM) 만 사용하는 것보다 계산 비용이 적게 들며, NGI 와 사후 처리를 결합했을 때 가장 좋은 성능을 보였습니다.
Ablation Study: 노이즈 추가와 Teacher Forcing Error(TFE) 전략이 일반화 성능에 필수적이며, n-gram 차수 (n=5) 가 낮아질수록 타겟 데이터에서의 성능 저하가 심해지는 것을 확인했습니다.

5. 의의 및 결론 (Significance & Conclusion)

실용성: 실제 산업 환경 (행정 양식, 역사적 문서 등) 에서 훈련 데이터와 다른 언어 분포를 가진 문서에 대해 별도의 재훈련 없이도 높은 인식 정확도를 보장할 수 있습니다.
패러다임 전환: 기존의 사후 처리 기반 언어 모델 결합 방식을 넘어, 신경망 내부에서 언어 정보를 동적으로 통합하는 새로운 접근법을 제시했습니다.
확장성: 이 프레임워크는 트랜스포머 디코더를 사용하는 모든 자동 회귀 (Auto-regressive) 기반 HTR 모델에 적용 가능하며, 향후 신경망 기반 외부 언어 모델 (Neural LM) 로 확장될 잠재력을 가지고 있습니다.

요약하자면, 이 논문은 트랜스포머 기반 HTR 모델의 언어 편향 문제를 해결하기 위해, 추론 시 외부 n-gram 모델을 디코더 입력단에 주입하는 경량화된 동적 적응 기법을 제안하고, 이를 통해 다양한 언어 분포 시프트 환경에서 성능을 획기적으로 개선했음을 입증했습니다.

N-gram Injection into Transformers for Dynamic Language Model Adaptation in Handwritten Text Recognition

📝 핵심 주제: "손글씨를 읽는 AI 가 낯선 방언을 만나면 당황하는 이유"

1. 문제 상황: "유창한 외국어 실력, 하지만 방언은 몰라"

2. 해결책: "NGI(언어 주입기) - 실시간 번역기 연결하기"

3. 이 방법의 놀라운 점: "재학습 없이 즉시 적응"

4. 실험 결과: "어떤 상황에서도 잘 읽는다"

5. 결론: "유연한 AI 의 탄생"

1. 문제 정의 (Problem Statement)

2. 제안 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문

Model2Kernel: Model-Aware Symbolic Execution For Safe CUDA Kernels

Algorithmic Barriers to Detecting and Repairing Structural Overspecification in Adaptive Data-Structure Selection

Zero-Cost NDV Estimation from Columnar File Metadata

Persistence-based topological optimization: a survey

Multi-LLM Query Optimization