Restoration-Guided Kuzushiji Character Recognition Framework under Seal Interference

Each language version is independently generated for its own context, not a direct translation.

この論文は、「古くて読みにくい日本の手書き文書（くずし字）を、AI が正しく読めるようにする新しい方法」について書かれたものです。特に、文書に押された「赤い印鑑（朱印）」が文字を隠してしまい、AI が読み間違える問題を解決する画期的なアプローチが紹介されています。

まるで**「傷ついた古文書を修復する職人」と「超能力を持つ翻訳者」**がチームを組んで、現代人が読めるようにする物語のような技術です。

以下に、3 つのステップに分けて、わかりやすく解説します。

📜 背景：なぜこれが難しいの？

昔の日本（明治時代以前）の文書には、**「くずし字」という、現代の文字とは全く違う、くねくねと流れるような文字が使われていました。
さらに、その文書には「赤い印鑑」が所々に押されています。これは所有権を示すものですが、「文字の上に乗っかっている」**ことが多く、AI が「これは何の文字だ？」と判断するのを邪魔します。

現在の AI は、きれいな文字なら読めますが、**「赤いインクで文字が隠れている状態」になると、途端にバカになってしまいます。まるで、「黒板に赤いチョークで落書きがされて、元の文字が見えなくなっている状態」**を想像してください。

🛠️ 解決策：3 段階の「魔法のフレームワーク」

この研究では、**「RG-KCR（修復ガイド付きくずし字認識）」**という 3 つのステップからなるシステムを提案しています。

第 1 段階：🔍「どこに文字があるか」を見つける探偵

まず、AI に「文書の中から、文字が入っている場所（枠）」を探させます。

どんな技術？ 「YOLOv12」という最新の物体検出 AI を使っています。
どんな感じ？ 赤い印鑑が乗っていても、「あ、ここには文字があるぞ！」と正確に枠を引くことができます。まるで、**「煙（印鑑）の向こう側にある宝物（文字）の位置を、探偵が正確に特定する」**ようなものです。

第 2 段階：🎨「赤いインクを消して、文字を復元する」魔法のブラシ

ここがこの論文の一番の目玉です。

どんな技術？ 「学習不要の修復アルゴリズム」です。
どんな感じ？
1. AI は「赤い色」だけを狙い撃ちします（文字は黒や茶色なので、赤い部分だけを特定できます）。
2. 赤い印鑑の部分を「消しゴム」で消します。
3. 消えた部分の隙間を、周りの文字の雰囲気や紙の質感に合わせて**「塗りつぶし（インペインティング）」**で埋め直します。
これは、**「傷ついた絵画の修復職人が、赤い落書きだけを丁寧に剥がし、元の絵を再現する」**作業に似ています。特別な AI を訓練する必要がなく、計算も軽いので、スマホでもサクサク動きます。

第 3 段階：📖「修復された文字を翻訳する」翻訳者

最後に、修復された文字を AI が読み取ります。

どんな技術？ 「Metom」という、100 万種類以上の文字を覚えている超高性能な AI 翻訳者です。
どんな感じ？ 第 2 段階で「赤いインクを消してきれいにした文字」を渡すので、AI は迷わず「これは『尚』、『書』、『堂』だ！」と正しく読み取れます。

🌟 結果：どれくらいすごい？

実験の結果、この 3 段階のシステムは驚くほど成功しました。

印鑑が乗っていても、文字の位置を 98% の確率で見つけられる。
赤いインクを消すことで、AI の読み取り精度が 93.4% から 95.3% に向上した。
- 一見すると 2% の差に見えるかもしれませんが、AI の世界では**「大きな差」です。これは、「少しの補正で、失敗していたテストが合格ラインを超えた」**ような効果です。

🎁 最終的な出力

システムは、元の古文書の上に、**「読み取れた現代の日本語文字」を、元の位置に重ねて表示してくれます。
まるで、「古文書の上に、透明なシートを被せて、現代語で書き写したような状態」**で、誰でも直感的に文書の内容が読めるようになります。

💡 まとめ

この研究は、**「赤い印鑑という邪魔なものを、AI が『消して』から『読む』」**という、シンプルながら非常に効果的なアイデアで、古くから残る日本の文化財を現代人が楽しめるようにしました。

**「傷ついた古文書を、職人が丁寧に修復し、翻訳者がその内容を解き明かす」**という、技術と伝統の美しいコラボレーションと言えます。

Each language version is independently generated for its own context, not a direct translation.

論文サマリー：印章干渉下における修復ガイド型くずし字認識フレームワーク (RG-KCR)

1. 背景と課題 (Problem)

くずし字認識の現状: 近代以前の日本文書（古文書）に広く用いられていた「くずし字」の自動認識技術は、近年の深層学習の進展により、比較的綺麗な文書画像に対しては高い精度を達成しています。
印章（朱印）干渉の問題: 古文書には所有権や身分を示すために赤いインクで押された「印章（朱印）」が頻繁に含まれており、これが文字と重なっているケースが多発します。
既存手法の限界: 既存の OCR システム（Fuminoha, NDLkotenOCR-Lite, Metom など）は、印章が文字を覆っている場合、認識精度が著しく低下します。印章の赤色は文字の筆画と混在し、視覚的なノイズとして機能するため、従来のモデルはこれを適切に処理できません。

2. 提案手法 (Methodology)

著者らは、印章干渉を軽減するための**3 段階の修復ガイド型くずし字認識フレームワーク（RG-KCR）**を提案しました。

Stage 1: くずし字文字検出 (Character Detection)
- 文書画像から個々の文字の位置を特定します。
- 既存の行レベル検出（Line-level）ではなく、**文字レベル検出（Character-level）**を採用し、YOLOv12-medium モデルを使用します。
- 印章が重なっていても、YOLOv12 は高い精度（Precision 98.0%, Recall 93.3%）で文字を検出できることが確認されました。
- 注: 検出段階では修復を行わず、そのままの画像で検出を行います。
Stage 2: 文書修復 (Document Restoration)
- 印章干渉を軽減するため、学習不要（Training-free）で計算効率の高い色ベースの印章除去アルゴリズムを提案します。
- 原理: 赤い印章は RGB 空間において赤チャネルの強度が緑・青チャネルよりも高いという特性を利用し、閾値処理（ $R \ge \tau_r$ かつ $R \ge \tau_{rg} \cdot G$ かつ $R \ge \tau_{rb} \cdot B$ ）で印章領域をマスクします。
- 修復: 検出されたマスク領域を、Telea のファストマーチング法やナビエ - ストークス法に基づく画像インペインティング（Inpainting）技術を用いて、周囲のテクスチャや構造情報を伝播させることで修復します。
- この段階で印章の痕跡を除去し、文字の可読性を向上させます。
Stage 3: 文字分類 (Character Classification)
- Stage 2 で修復された画像から、Stage 1 で得たバウンディングボックスに基づいて文字を切り出し（Cropping）、分類モデルに入力します。
- 分類モデルには、100 万クラス以上の文字を認識可能な Vision Transformer (ViT) ベースのモデル「Metom」を使用します。
- 最終的に、認識された現代日本語の文字を修復された文書画像の対応する位置にオーバーレイ表示し、直感的な読解を可能にします。

3. 主要な貢献 (Key Contributions)

RG-KCR フレームワークの提案: 印章が文字と重なっている状況下でも認識性能を向上させる、3 段階の新しいパイプラインを構築しました。
効率的な印章除去アルゴリズム: 学習を必要とせず、計算コストが低く、赤い印章のアーティファクトを効果的に低減する色ベースの修復手法を導入しました。
アブレーション研究による効果検証: 修復段階（Stage 2）が分類精度に与える影響を定量的に評価し、修復を行うことで Metom モデルの Top-1 精度が 93.45% から 95.33% に向上することを証明しました。
新規データセットの構築:
- 検出用データセット: CODH 提供の古文書 1,000 枚に、実物の印章画像を合成して重ねたデータを作成し、手動で注釈を修正・補完しました。
- 分類用テストセット: 合成印章が重ねられた 100 枚の文書（17,982 文字インスタンス）から構成されるテストセットを構築しました。

4. 実験結果 (Results)

文字検出 (Stage 1):
- 比較対象（RT-DETR, YOLOv9, v10, v11, v12）の中で、YOLOv12-mediumが最も優れた性能を示しました。
- 精度（Precision）: 98.0%、再現率（Recall）: 93.3%、AP50: 97.0%。
文書修復 (Stage 2):
- 修復品質の評価指標として PSNR と SSIM を使用。
- 最適化されたパラメータ（ $\tau_r=90, \tau_{rg}=\tau_{rb}=1.3$ ）において、PSNR は約 34.13 dB、SSIM は 0.9750 を達成しました。
文字分類 (Stage 3):
- 修復なし（ベースライン）: Top-1 精度 93.45%
- 修復あり（提案手法）: Top-1 精度 95.33%
- 修復による精度向上は約 1.88 ポイントであり、処理時間の増加（画像あたり約 0.51 秒）を考慮しても有意義な改善でした。

5. 意義と展望 (Significance)

実用性の向上: 古文書において頻繁に発生する「印章による文字の隠蔽」という長年の課題に対し、実用的で効率的な解決策を提供しました。
既存モデルの性能引き上げ: 高度な修復モデルを学習させるのではなく、軽量な色ベースの修復を前処理として導入するだけで、既存の高性能分類器（Metom）の性能をさらに引き上げることが可能であることを示しました。
今後の課題: 現在のフレームワークは個々の文字認識と表示に焦点を当てており、文書全体の「読み順の復元」や「連続したテキスト出力」は行われていません。今後の研究では、レイアウト解析と文字順序の復元を組み合わせたエンドツーエンドのテキスト生成への拡張が予定されています。

この研究は、デジタル人文科学の分野において、赤い印章に覆われた貴重な古文書のデジタル化と可読性向上に大きく貢献するものです。