Each language version is independently generated for its own context, not a direct translation.
🏛️ 문제 상황: "도장이 글자를 가린 고서적"
상상해 보세요. 수백 년 전의 일본 고서적 한 권을 펼쳤는데, 거기에는 현대 일본어와 완전히 다른, 매우 유동적이고 구불구불한 글씨 (구시지) 가 쓰여 있습니다. 현대 일본인들은 이 글씨를 읽을 수 없어 전문가만 읽을 수 있습니다.
여기에 더 큰 문제가 있습니다. 옛날 사람들은 문서의 소유권을 증명하거나 예의를 표하기 위해 빨간색 도장을 곳곳에 찍었습니다. 문제는 이 도장이 글자 위에 겹쳐서 찍히는 경우가 많다는 것입니다.
- 기존 기술의 한계: 기존의 인공지능 (OCR) 은 깨끗한 글자는 잘 읽지만, 빨간 도장이 글자를 덮고 있으면 "이게 무슨 글자지?" 하고 헤매거나 틀리게 읽습니다. 마치 빨간 페인트로 글자를 덮어씌운 전단지를 보고 글자를 읽으려 하는 것과 비슷합니다.
🛠️ 해결책: "3 단계로 이루어진 구출 작전 (RG-KCR)"
저자들은 이 문제를 해결하기 위해 3 단계로 나누어 문제를 해결하는 'RG-KCR'이라는 새로운 시스템을 만들었습니다. 마치 고장 난 자동차를 수리하는 과정과 비슷합니다.
1 단계: 글자 찾기 (탐정 역할)
- 무엇을 하나요? 먼저 문서 전체를 훑어보며 "어디에 글자가 있나?"를 찾아냅니다.
- 비유: 어두운 방에서 형광펜으로 글자 하나하나를 찾아내어 테두리를 그리는 작업입니다. 이 단계에서는 도장이 있어도 글자의 위치를 정확히 찾아내는 'YOLOv12'라는 최신 탐정 (모델) 을 사용합니다.
2 단계: 도장 지우기 (복원사 역할) ⭐ 핵심 기술
- 무엇을 하나요? 찾아낸 글자 위에 있는 빨간 도장을 지워버립니다.
- 비유: 이 부분이 이 논문의 가장 큰 특징입니다. 도장은 빨간색인데, 글자는 검은색 (또는 갈색) 입니다. 저자들은 "빨간색만 골라내서 지우개 (또는 인페인팅 기술) 로 지워버리는" 아주 똑똑한 방법을 고안했습니다.
- 이 방법은 별도의 복잡한 학습 없이도 작동하며, 빨간 도장만 싹 지워내고 그 자리에 원래의 배경이나 글자 선을 자연스럽게 채워 넣습니다. 마치 도장 위에 찍힌 페인트를 깨끗이 닦아내어 원래의 그림이 다시 보이게 하는 것과 같습니다.
3 단계: 글자 읽기 (번역가 역할)
- 무엇을 하나요? 도장이 지워져서 깨끗해진 글자를 컴퓨터가 읽어냅니다.
- 비유: 이제 글자가 가려지지 않았으니, **전문 번역가 (Metom 이라는 AI)**가 그 글자를 현대 일본어로 정확하게 번역합니다.
🎁 최종 결과: "원래 모습으로 돌아온 고서적"
이 3 단계 과정을 거치면, 도장이 가렸던 글자들이 선명하게 드러나고, 컴퓨터가 그 글자를 현대 일본어로 변환하여 원래 문서 위에 다시 겹쳐서 보여줍니다.
- 효과: 실험 결과, 도장을 지우는 과정을 거치지 않았을 때보다 글자 인식 정확도가 약 2% 이상 향상되었습니다. (93.4% → 95.3%)
- 의미: 이는 마치 흐릿하게 찍힌 사진의 노이즈를 제거하고 선명하게 만들어주는 필터를 적용한 것과 같습니다.
💡 요약 및 결론
이 연구는 **"빨간 도장이 글자를 가려서 읽기 힘든 일본 고서적을, AI 가 도장을 지우고 글자를 찾아내어 현대인에게 읽히게 하는 방법"**을 제안했습니다.
- 핵심 아이디어: 글자를 읽기 전에, 방해물 (도장) 을 먼저 치워라.
- 실용성: 이 기술은 모바일 앱이나 웹 서비스에서도 빠르게 작동하도록 설계되어, 일반인도 역사 문서를 쉽게 접할 수 있는 길을 열어줍니다.
마치 오래된 편지지의 찌든 때와 도장을 깨끗이 닦아내어, 수백 년 전의 편지 내용을 다시 읽을 수 있게 해주는 마법의 지우개라고 생각하시면 됩니다.
Each language version is independently generated for its own context, not a direct translation.
1. 문제 정의 (Problem Statement)
- 배경: 구시지 (Kuzushiji) 는 근대 이전 일본 문서 (개인 편지, 공문서, 고전 문학 등) 에서 널리 사용된 흘림체 문자입니다. 현대 일본어 사용자는 이를 직접 해독하기 어려워 자동 인식 (OCR) 기술 개발이 활발히 진행되고 있습니다.
- 핵심 문제: 기존 구시지 인식 시스템 (Fuminoha, NDLkotenOCR-Lite, Metom 등) 은 상대적으로 깨끗한 문서에서는 우수한 성능을 보이지만, 문서에 자주 등장하는 붉은색 인장 (Seal) 이 문자와 겹칠 때 (Occlusion) 인식 정확도가 급격히 떨어집니다.
- 현황: 인장은 소유권과 신원을 나타내는 중요한 요소이나, 붉은 잉크로 찍혀 문자를 가리거나 왜곡시켜 기존 AI 모델이 문자를 제대로 판별하지 못하게 만듭니다.
2. 제안 방법론 (Methodology: RG-KCR Framework)
저자들은 인장 간섭을 완화하기 위해 3 단계로 구성된 복원 기반 구시지 문자 인식 (RG-KCR) 프레임워크를 제안했습니다.
Stage 1: 구시지 문자 탐지 (Character Detection)
- 목표: 문서 내의 개별 문자 위치를 정확히 찾아내는 것.
- 모델: 최신 객체 탐지 모델인 YOLOv12-medium을 사용.
- 전략: 기존 선 단위 (Line-level) 탐지 방식은 복잡한 레이아웃에서 중복 박스를 생성하는 문제가 있어, 본 연구에서는 문자 단위 (Character-level) 탐지를 채택했습니다.
- 성능: 인장이 겹친 상황에서도 높은 정밀도 (Precision) 와 재현율 (Recall) 을 유지하여, 탐지 단계에서는 별도의 복원 처리 없이도 신뢰할 수 있는 바운딩 박스를 생성합니다.
Stage 2: 문서 복원 (Document Restoration)
- 목표: 탐지된 문자 영역에서 붉은색 인장 아티팩트를 제거하여 문자 가독성을 회복.
- 알고리즘: 학습이 필요 없는 (Training-free) 색상 기반 인장 제거 알고리즘을 제안.
- 원리: 붉은색 인장은 RGB 채널 중 Red 채널의 강도가 Green 과 Blue 보다 훨씬 높다는 특성을 이용합니다.
- 마스크 생성:
(R ≥ τr) ∧ (R ≥ τrg · G) ∧ (R ≥ τrb · B) 조건을 만족하는 픽셀을 인장 후보로 분류하여 이진 마스크 (Binary Mask) 를 생성합니다.
- 보정: 형태학적 팽창 (Morphological Dilation) 을 통해 인장 잉크가 주변으로 번진 부분을 보정합니다.
- 인페인팅 (Inpainting): 생성된 마스크 영역을 Telea 의 Fast Marching 방법 또는 Navier-Stokes 기반 접근법을 사용하여 주변 텍스처와 구조 정보를 전파하여 복원합니다.
- 장점: 대규모 신경망을 사용하지 않아 계산 비용이 낮고 효율적이며, 실시간 처리에 적합합니다.
Stage 3: 구시지 문자 분류 (Character Classification)
- 목표: 복원된 개별 문자 이미지를 현대 일본어 문자 (Unicode) 로 매핑.
- 모델: Metom (ViT 기반의 구시지 분류기) 을 사용.
- 프로세스: Stage 1 에서 추출된 바운딩 박스 좌표를 Stage 2 의 복원된 이미지에 적용하여 문자 패치를 잘라낸 후, Metom 을 통해 분류합니다.
- 최종 출력: 인식된 현대 일본어 문자를 복원된 문서의 해당 위치에 오버레이하여 사용자에게 직관적인 읽기 환경을 제공합니다.
3. 주요 기여 (Key Contributions)
- 새로운 프레임워크 제안: 인장 간섭이 있는 구시지 문서 인식을 위해 탐지, 복원, 분류 단계를 통합한 RG-KCR 프레임워크를 최초로 제안했습니다.
- 효율적인 복원 알고리즘: 학습 데이터가 필요 없는 경량화된 색상 기반 인장 제거 알고리즘을 개발하여, 인장 아티팩트를 효과적으로 제거하면서도 계산 비용을 최소화했습니다.
- 데이터셋 구축:
- 탐지용 데이터셋: CODH 의 구시지 문서 1,000 장에 실제 인장 이미지를 합성 (Synthetic Overlay) 하고, 수동으로 주석을 수정/보완하여 고품질 테스트셋을 구축했습니다.
- 분류용 테스트셋: 인장이 겹친 100 장의 문서 (약 17,982 개의 문자 인스턴스) 로 구성된 평가 세트를 구축했습니다.
- 실험적 검증: 복원 단계 (Stage 2) 가 분류 성능에 미치는 영향을 정량적으로 입증했습니다.
4. 실험 결과 (Results)
- 탐지 성능 (Stage 1): YOLOv12-medium 모델은 테스트셋에서 **정밀도 98.0%, 재현율 93.3%**를 기록하여 인장 간섭 상황에서도 강력한 탐지 능력을 입증했습니다.
- 복원 품질 (Stage 2): 최적의 하이퍼파라미터 (τr=90, τrg=τrb=1.3) 설정 시, PSNR 34.13dB, SSIM 0.9750의 높은 복원 품질을 달성했습니다.
- 분류 성능 (Stage 3):
- Ablation Study: 복원 단계를 적용하지 않은 Baseline(Metom 단독) 의 Top-1 정확도는 **93.45%**였으나, 복원 단계를 추가한 RG-KCR 프레임워크에서는 **95.33%**로 약 1.88%p 향상되었습니다.
- Top-5 정확도도 97.46% 에서 98.62% 로 개선되었습니다.
- 효율성: 복원 단계는 이미지당 약 0.51 초의 추가 시간이 소요되지만, 정확도 향상 효과를 고려할 때 수용 가능한 수준입니다.
5. 의의 및 결론 (Significance & Conclusion)
- 실용적 가치: 근대 이전 일본 문서의 디지털화 및 접근성을 높이는 데 중요한 기여를 합니다. 특히 인장이 겹친 문서에서도 안정적인 인식을 가능하게 하여, 기존 시스템이 처리하지 못했던 데이터의 활용도를 높입니다.
- 기술적 혁신: 복잡한 딥러닝 모델 대신 효율적인 색상 기반 복원 기법을 도입하여, 저사양 환경 (CPU 만 있는 웹 플랫폼 등) 에서도 고품질 인장이 가능함을 보였습니다.
- 향후 과제: 현재 프레임워크는 개별 문자 인식 및 오버레이에 집중되어 있으며, 문서의 복잡한 레이아웃을 고려한 **문장 단위 연속 텍스트 생성 (Reading Order Recovery)**은 향후 과제로 남겼습니다.
이 연구는 고문서 디지털 아카이빙 분야에서 인장 (Seal) 이라는 구체적인 간섭 요인을 해결하기 위한 체계적이고 효율적인 솔루션을 제시했다는 점에서 의의가 큽니다.