Restoration-Guided Kuzushiji Character Recognition Framework under Seal Interference

Each language version is independently generated for its own context, not a direct translation.

想象一下，你手里拿着一本几百年前的日本古书。书里的字写得非常潦草、连笔，就像现代人的“狂草”书法，普通人根本看不懂。更糟糕的是，书页上盖满了红色的印章（就像我们现在的公章或私章），这些印章不仅颜色鲜艳，还经常直接盖在文字上面，把字都遮住了。

这就好比你想读一份古老的食谱，但上面被泼了红色的果酱，还盖了好几个大印章，字都看不清了。

这篇论文就是为了解决这个“读古书难”的问题，提出了一套**“三步走”的智能修复与识别方案**。我们可以把它想象成一个**“古籍侦探社”**的工作流程：

第一步：精准定位（给每个字画个框）

任务： 在满是污渍和印章的纸上，把每一个字都找出来。
比喻： 就像在拥挤的人群中，你要把每一个特定的人（古文字）都圈出来。
做法： 作者使用了一种叫 YOLOv12 的超级 AI 眼睛。它非常厉害，哪怕字被红色的印章盖住了一半，它也能精准地画出一个个小方框，把字“圈”住。

成果： 它的准确率高达 98%，几乎不会漏掉任何一个字，也不会把纸上的污渍误认为是字。

第二步：魔法去污（把红印章“擦”掉）

任务： 把盖在字上面的红色印章去掉，让字露出来，但又不破坏字本身。
比喻： 这就像是一个**“数字橡皮擦”**。普通的橡皮擦可能会把纸擦破，但这个 AI 橡皮擦很聪明：

它知道印章是红色的（因为印章通常是红色的）。
它只擦掉红色的部分。
擦掉后，它会根据周围文字的纹理，像**“智能填色”**一样，把被印章盖住的字迹“补”回来。
特点： 这个过程不需要重新训练复杂的模型，速度快，而且专门针对红色印章设计，非常高效。

第三步：认字翻译（把古字变现代字）

任务： 认出被“擦”干净的字到底是什么，并把它变成现代人能看懂的字。
比喻： 就像请了一位**“古文字翻译官”**。
做法： 把第一步圈出来的字，经过第二步“清洗”后，交给一个叫 Metom 的超级翻译 AI。这个 AI 见过超过一百万种不同的古字写法。

成果： 经过“清洗”后，这个翻译官的准确率从 93.45% 提升到了 95.33%。也就是说，原本因为印章遮挡而认错的字，现在大部分都能认对了。

最终效果：古今对话

最后，系统会把识别出来的现代日语汉字，直接“贴”回古书的对应位置（就像给古书加了现代字幕）。

以前： 你看着满纸红印和潦草古字，一头雾水。
现在： 你看着古书，上面浮现出清晰的现代汉字，瞬间就能读懂几百年前的故事了。

为什么这个工作很重要？

以前的 AI 系统，一旦遇到红印章盖住字，就会“晕头转向”，认不出字。这篇论文就像给 AI 戴上了一副**“去红滤镜”的眼镜**，先帮它把干扰物（印章）清理掉，再让它去认字。

总结来说：
这就好比你要读一封被红墨水泼过的古代情书。

第一步：先找到信里每一个字的位置。
第二步：用魔法把红墨水洗掉，把被盖住的字迹复原。
第三步：把复原后的古字翻译成现代文，让你能读懂这份跨越时空的爱意。

这套方法不仅让古书变得可读，还让普通人也能轻松享受阅读历史文献的乐趣，不再需要专门请专家来翻译了。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于《Restoration-Guided Kuzushiji Character Recognition Framework under Seal Interference》（印章干扰下的修复引导型草书字符识别框架）的论文详细技术总结。

1. 研究背景与问题 (Problem)

背景：草书（Kuzushiji）是日本前现代时期（明治维新前）广泛使用的书写风格，存在于大量历史文献、私人信件和官方文件中。由于字形高度草书化且变体众多，现代日本读者难以直接阅读。
现有挑战：虽然基于深度学习的自动识别系统（如 Metom, NDLkotenOCR 等）在清洁文档上表现良好，但在处理印章干扰（Seal Interference）时表现不佳。
- 前现代日本文档中常盖有红色印章（代表所有权或身份），这些印章经常重叠或遮挡草书字符。
- 现有的主流识别系统（如 Fuminoha, NDLkotenOCR-Lite, Metom）在印章覆盖字符的情况下，识别准确率会显著下降，导致无法正确识别被遮挡的字符。
核心痛点：缺乏专门针对印章遮挡场景的鲁棒性识别框架，且现有的文档修复方法往往计算成本高或不适用于此类特定干扰。

2. 方法论 (Methodology)

作者提出了一个三阶段修复引导的草书字符识别框架（RG-KCR），旨在通过先修复文档再识别字符来缓解印章干扰。

阶段 1：草书字符检测 (Kuzushiji Character Detection)

目标：定位文档中的每一个草书字符。
策略：采用字符级检测而非行级检测。
- 原因：行级检测（如 NDLkotenOCR-Lite）在复杂布局或印章干扰下容易产生重复边界框。
模型：选用 YOLOv12-medium 作为检测器。
优势：即使在印章干扰下，该检测器也能保持高精度（Precision 98.0%），因此无需在检测前进行修复。

阶段 2：草书文档修复 (Kuzushiji Document Restoration)

目标：去除红色印章的干扰，恢复被遮挡区域的字符结构。
核心算法：提出了一种无需训练（Training-free）、基于颜色的印章去除算法，计算高效。
1. 印章区域检测：利用红色印章在 RGB 通道中红色分量显著高于绿色和蓝色的特性，通过阈值规则检测印章掩膜（Mask）。
  - 条件： $R \ge \tau_r$ 且 $R \ge \tau_{rg} \cdot G$ 且 $R \ge \tau_{rb} \cdot B$ 。
2. 掩膜优化：使用形态学膨胀（Morphological Dilation）扩展掩膜边界，补偿印章墨水的晕染。
3. 图像修复（Inpainting）：使用 OpenCV 实现的 Telea 快速行进法或基于 Navier-Stokes 的方法，将周围纹理和结构信息传播到被掩膜覆盖的区域，重建被遮挡的字符。
特点：无需训练数据，推理速度快，专门针对红色印章优化。

阶段 3：草书字符分类 (Kuzushiji Character Classification)

目标：识别修复后的单个字符。
流程：
1. 根据阶段 1 的边界框，从阶段 2 修复后的图像中裁剪出单个字符。
2. 过滤掉置信度低（<0.5）的误检框。
3. 输入到分类器中进行识别。
模型：使用 Metom（基于 Vision Transformer, ViT 的模型），该模型支持超过一百万个字符类别。
输出：将识别出的 Unicode 码点映射为现代日语字符，并叠加回修复后的文档图像上，形成最终的可读输出。

3. 关键贡献 (Key Contributions)

RG-KCR 框架：首个专门针对印章干扰设计的草书识别框架，通过“检测 - 修复 - 分类”的流水线显著提升鲁棒性。
高效修复算法：提出了一种无需训练、计算高效的红色印章去除算法，有效减少了遮挡区域的印章伪影。
数据集构建：
- 检测数据集：从 CODH 收集的 13 本书籍中构建了 1000 张图像，人工修正了不完整的标注，并合成添加了印章干扰的数据。
- 分类测试集：构建了包含 100 张图像、17,982 个字符实例的测试集，用于评估修复后的识别性能。
消融实验验证：通过实验证明了修复阶段（Stage 2）对分类性能的关键作用。
开源代码：提供了完整的实现代码，促进了该领域的研究。

4. 实验结果 (Results)

实验在构建的数据集上进行，硬件环境为 Intel i7-14700K CPU 和 NVIDIA RTX A6000 GPU。

检测性能 (Stage 1)：
- YOLOv12-medium 表现最佳：
  - 精确率 (Precision): 98.0%
  - 召回率 (Recall): 93.9%
  - AP50: 97.0%
- 即使在印章干扰下，检测器仍能准确定位字符。
修复性能 (Stage 2)：
- 通过参数敏感性分析，确定最佳超参数为 $\tau_r=90, \tau_{rg}=\tau_{rb}=1.3$ 。
- PSNR: 测试集达到 34.13 dB。
- SSIM: 测试集达到 0.9750。
- 定性结果显示，大部分明显的印章伪影被去除，仅残留极淡的粉色痕迹，且字符结构得到较好恢复。
分类性能 (Stage 3) 与消融实验：
- 对比实验：使用 Metom 直接识别（无修复）vs. 使用 Metom 识别修复后的图像。
- Top-1 准确率：从 93.45% 提升至 95.33%。
- Top-5 准确率：从 97.46% 提升至 98.62%。
- 效率：修复阶段平均增加 0.51 秒/张 的处理时间，考虑到准确率的显著提升，这一代价是可接受的。

5. 意义与展望 (Significance & Future Work)

学术意义：解决了前现代日本文献数字化中一个长期被忽视的痛点（印章干扰），证明了“先修复后识别”策略在特定干扰场景下的有效性。
应用价值：
- 使现代读者能更直观地阅读和理解被印章遮挡的历史文献。
- 系统支持用户调整叠加文字的颜色、大小及边界框可见性，增强了交互性和可读性。
局限性：
- 当前框架主要输出单个字符的识别结果并叠加显示，尚未实现连续文本的自动排序和重组。
- 由于草书文档布局多变，字符顺序恢复（Reading Order Recovery）和文本行重建仍极具挑战性。
未来工作：计划引入字符排序和布局分析模块，以实现端到端的文本重建和连续文本输出。

总结：该论文通过结合先进的目标检测（YOLOv12）、轻量级的图像修复技术（基于颜色的去印章）和强大的分类模型（Metom），成功构建了一个在印章干扰下依然高精度的草书识别系统，为日本历史文献的数字化保护提供了重要的技术解决方案。