From OCR to Analysis: Tracking Correction Provenance in Digital Humanities Pipelines

本文提出了一种面向数字人文学科的 OCR 校正溯源框架,通过记录文本修正的谱系信息,揭示了校正路径对下游实体抽取及学术解读的显著影响,并主张将溯源数据作为支持可重复性与不确定性感知的核心分析层。

Haoze Guo, Ziqi Wei

发布于 Mon, 09 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章主要讲的是在数字人文学科(用电脑研究历史文献)中,如何处理一个非常棘手的问题:机器识别文字时的错误,以及我们如何“留痕”地修正这些错误

为了让你更容易理解,我们可以把整个研究过程想象成修复一本被水浸泡过的古老食谱

1. 背景:模糊的食谱与“自动修复”的陷阱

想象你有一本几百年前的手写食谱,因为年代久远,纸张发黄、字迹模糊,甚至有些地方被墨水晕染了。

  • OCR(光学字符识别):你请了一位“机器翻译官”(OCR 软件)来把模糊的字迹变成电脑能读懂的文本。但这位翻译官经常看错,把"1/2 杯糖”看成了"1/2 杯盐”,或者把"Rose"(玫瑰)看成了"Ruse"(诡计)。
  • 传统的修正方法:为了得到一本干净的食谱,研究人员通常会请人(或更高级的 AI)把这些错字全部改过来,然后直接覆盖掉原来的机器识别结果。
    • 问题出在哪? 就像你直接拿橡皮擦把原稿上的错字擦掉,写上正确答案,然后把原来的字迹彻底抹去。几个月后,当你发现“为什么这道菜这么咸?”时,你无法追溯:是机器看错了?还是后来的人改错了?或者是为了统一格式,把原本有历史特色的写法(比如古英语拼写)给“标准化”了?
    • 后果:原本的历史痕迹消失了,研究者无法判断现在的文本是“原本的样子”还是“被修改后的样子”,这会影响对历史数据的分析。

2. 核心方案:给每一次修改都贴上“身份证”

这篇论文提出了一种新的方法,叫**“溯源感知框架”(Provenance-aware Framework)**。

打个比方:
想象你不再直接擦掉错字,而是给每一个修改过的地方都贴上一张透明的“修正标签”。这张标签上写着:

  • 改了什么:把"Ruse"改成了"Rose"。
  • 谁改的:是机器猜的?还是专家人工改的?
  • 有多大的把握:机器只有 70% 的把握(低置信度),或者专家 100% 确认(高置信度/已审核)。
  • 改的类型:是纠正错别字,还是把两个词合并了?

这样,无论你怎么修改,原始的“机器识别版”和中间的“修改过程”都完好无损地保留了下来

3. 实验:不同的“修改策略”带来不同的“故事”

研究人员拿了一小批历史文献做了实验,对比了三种情况:

  1. 纯机器版:全是错别字,没法用。
  2. 全修正版:把所有能改的都改了,不管是谁改的,也不管有没有把握。
  3. 溯源过滤版:只采纳那些“高置信度”或“专家已确认”的修改,保留那些“拿不准”的地方原样不动。

他们发现了一个惊人的现象:

  • 全修正版虽然看起来最完美,但它制造了很多“假象”。因为一些不确定的修改(比如把不确定的词强行改成了另一个词),导致计算机提取出的“人名”、“地名”数量发生了剧烈变化。就像因为改错了一个字,导致整道菜从“甜点”变成了“咸菜”。
  • 溯源过滤版虽然保留了一些“不完美”(比如保留了一些机器看不懂的模糊词),但它更稳定。它告诉研究者:“看,这部分是我们确定的,那部分是我们拿不准的,你分析的时候要小心。”

4. 核心发现:修改的“路径”决定了结果

论文通过实验证明,你怎么修正文本,直接决定了你能从文本里分析出什么历史结论

  • 比喻:如果你把食谱里的“糖”都改成了“盐”,那你分析出的“这道菜很甜”的结论就是错的。
  • 关键发现
    • 有些修改(比如把断开的词连起来,或者把长词拆开)对结果影响巨大。
    • 有些修改(比如页眉、页脚处的模糊字迹)特别容易出错。
    • 有了“溯源标签”,研究者可以一眼看出:“哦,这个奇怪的人名出现,是因为那个机器只有 30% 把握就强行修改了,这个结论不可信,需要人工复核。”

5. 总结:为什么要这么做?

这篇文章的核心思想是:在数字人文研究中,“修改过程”本身也是历史的一部分,不应该被抹去。

  • 以前:我们只想要一个“干净”的结果,像把照片修得完美无缺,但修图过程被隐藏了。
  • 现在:我们提倡**“透明化”**。就像做菜时,不仅要给客人看成品,还要告诉客人:“这里我加了盐,那里我用了新配方,但那个步骤我其实不太确定,所以你们吃的时候要注意。”

一句话总结:
这篇论文教我们如何给历史文献的数字化修复过程**“留底”。通过记录每一次修改的“来龙去脉”和“可信度”,让研究者在使用电脑分析历史时,能分清哪些是确定的事实**,哪些是人为的猜测,从而做出更严谨、更负责任的学术判断。