Each language version is independently generated for its own context, not a direct translation.

这篇文章主要讲的是在数字人文学科（用电脑研究历史文献）中，如何处理一个非常棘手的问题：机器识别文字时的错误，以及我们如何“留痕”地修正这些错误。

为了让你更容易理解，我们可以把整个研究过程想象成修复一本被水浸泡过的古老食谱。

1. 背景：模糊的食谱与“自动修复”的陷阱

想象你有一本几百年前的手写食谱，因为年代久远，纸张发黄、字迹模糊，甚至有些地方被墨水晕染了。

OCR（光学字符识别）：你请了一位“机器翻译官”（OCR 软件）来把模糊的字迹变成电脑能读懂的文本。但这位翻译官经常看错，把"1/2 杯糖”看成了"1/2 杯盐”，或者把"Rose"（玫瑰）看成了"Ruse"（诡计）。
传统的修正方法：为了得到一本干净的食谱，研究人员通常会请人（或更高级的 AI）把这些错字全部改过来，然后直接覆盖掉原来的机器识别结果。
- 问题出在哪？ 就像你直接拿橡皮擦把原稿上的错字擦掉，写上正确答案，然后把原来的字迹彻底抹去。几个月后，当你发现“为什么这道菜这么咸？”时，你无法追溯：是机器看错了？还是后来的人改错了？或者是为了统一格式，把原本有历史特色的写法（比如古英语拼写）给“标准化”了？
- 后果：原本的历史痕迹消失了，研究者无法判断现在的文本是“原本的样子”还是“被修改后的样子”，这会影响对历史数据的分析。

2. 核心方案：给每一次修改都贴上“身份证”

这篇论文提出了一种新的方法，叫**“溯源感知框架”（Provenance-aware Framework）**。

打个比方：
想象你不再直接擦掉错字，而是给每一个修改过的地方都贴上一张透明的“修正标签”。这张标签上写着：

改了什么：把"Ruse"改成了"Rose"。
谁改的：是机器猜的？还是专家人工改的？
有多大的把握：机器只有 70% 的把握（低置信度），或者专家 100% 确认（高置信度/已审核）。
改的类型：是纠正错别字，还是把两个词合并了？

这样，无论你怎么修改，原始的“机器识别版”和中间的“修改过程”都完好无损地保留了下来。

3. 实验：不同的“修改策略”带来不同的“故事”

研究人员拿了一小批历史文献做了实验，对比了三种情况：

纯机器版：全是错别字，没法用。
全修正版：把所有能改的都改了，不管是谁改的，也不管有没有把握。
溯源过滤版：只采纳那些“高置信度”或“专家已确认”的修改，保留那些“拿不准”的地方原样不动。

他们发现了一个惊人的现象：

全修正版虽然看起来最完美，但它制造了很多“假象”。因为一些不确定的修改（比如把不确定的词强行改成了另一个词），导致计算机提取出的“人名”、“地名”数量发生了剧烈变化。就像因为改错了一个字，导致整道菜从“甜点”变成了“咸菜”。
溯源过滤版虽然保留了一些“不完美”（比如保留了一些机器看不懂的模糊词），但它更稳定。它告诉研究者：“看，这部分是我们确定的，那部分是我们拿不准的，你分析的时候要小心。”

4. 核心发现：修改的“路径”决定了结果

论文通过实验证明，你怎么修正文本，直接决定了你能从文本里分析出什么历史结论。

比喻：如果你把食谱里的“糖”都改成了“盐”，那你分析出的“这道菜很甜”的结论就是错的。
关键发现：
- 有些修改（比如把断开的词连起来，或者把长词拆开）对结果影响巨大。
- 有些修改（比如页眉、页脚处的模糊字迹）特别容易出错。
- 有了“溯源标签”，研究者可以一眼看出：“哦，这个奇怪的人名出现，是因为那个机器只有 30% 把握就强行修改了，这个结论不可信，需要人工复核。”

5. 总结：为什么要这么做？

这篇文章的核心思想是：在数字人文研究中，“修改过程”本身也是历史的一部分，不应该被抹去。

以前：我们只想要一个“干净”的结果，像把照片修得完美无缺，但修图过程被隐藏了。
现在：我们提倡**“透明化”**。就像做菜时，不仅要给客人看成品，还要告诉客人：“这里我加了盐，那里我用了新配方，但那个步骤我其实不太确定，所以你们吃的时候要注意。”

一句话总结：
这篇论文教我们如何给历史文献的数字化修复过程**“留底”。通过记录每一次修改的“来龙去脉”和“可信度”，让研究者在使用电脑分析历史时，能分清哪些是确定的事实**，哪些是人为的猜测，从而做出更严谨、更负责任的学术判断。

Each language version is independently generated for its own context, not a direct translation.

论文技术总结：从 OCR 到分析：追踪数字人文管道中的修正溯源

1. 研究背景与问题 (Problem)

在数字人文（Digital Humanities, DH）的研究流程中，光学字符识别（OCR）是将扫描的历史文献转化为可分析文本的关键步骤。然而，历史文献往往存在退化、非标准字符、特殊排版和字体差异等问题，导致原始 OCR 输出充满噪声。

为了提升下游自然语言处理（NLP）任务（如命名实体识别 NER）的效果，研究人员通常会对 OCR 结果进行修正（包括规则归一化、神经网络后处理或人工编辑）。当前面临的核心问题在于：

决策黑盒化：常见的修正工作流往往会直接覆盖原始文本，抹去了中间决策的历史记录。
溯源缺失：缺乏对文本变换过程（如：谁修正的、依据什么、置信度如何）的记录，导致无法追溯下游分析结果（如提取的实体）是如何受修正影响的。
不确定性不可见：修正可能引入新的不确定性（例如将具有历史意义的拼写变体“标准化”），但分析者无法区分哪些是修复，哪些是人为的归一化，从而影响了学术解释的透明度和可复现性。

2. 方法论 (Methodology)

2.1 核心框架：基于片段的溯源感知模式 (Span-level Provenance Schema)

作者提出了一种轻量级、工具无关的修正溯源表示法，旨在记录每个修正片段的“家谱”（Lineage）。

记录粒度：以**文本片段（Span）**为单位，而非仅记录 Token 或字符。这比字符级编辑更灵活，比仅记录 Token 更精确，支持分词、合并等操作。
记录内容：每个修正记录包含：
- 文档/页面标识符。
- 片段偏移量（基于原始 OCR 文本的 Unicode 码点索引）。
- 原始文本与修正后文本。
- 编辑类型（替换、拆分、合并）。
- 修正来源（基于规则、模型辅助、人工）。
- 置信度（Confidence）与人工审核状态（Review Status）。
- 布局区域元数据（如正文、页眉、脚注）。
序列化与互操作性：支持 JSONL、CSV 或 Stand-off 注释格式，确保在不覆盖原始文本的情况下，能够叠加多层修正并追溯下游 NLP 输出。

2.2 试点研究设计 (Pilot Study)

作者构建了一个小型历史文本语料库，对比了三种文本变体在下游 NER 任务中的表现：

原始 OCR (Raw OCR)：未经任何后处理。
完全修正 (Fully Corrected)：应用所有可用的修正。
溯源过滤修正 (Provenance-filtered)：仅应用满足特定“信任策略”（如置信度 $\ge$ 0.70 或已人工审核）的修正。

下游任务：

命名实体识别 (NER)：使用在 CoNLL-2003 上微调的 Transformer 模型，对比不同变体提取的实体数量、唯一实体集及重叠度（Jaccard 相似度）。
实体链接 (Entity Linking)：测试修正路径如何影响实体到知识库（如 Wikidata）的链接稳定性。
归因分析：通过片段重叠和局部窗口搜索，将不稳定的实体输出关联回具体的修正事件，以识别导致不稳定的修正类型。

3. 关键贡献 (Key Contributions)

提出片段级溯源模式：设计了一种记录编辑谱系、修正来源、置信度和审核状态的 Schema，填补了 DH 领域 OCR 修正溯源的空白。
实证对比分析：通过试点研究，量化了原始 OCR、完全修正和溯源过滤文本在 NER 输出上的差异，揭示了修正路径对提取结果的显著影响。
DH 导向的错误分析视角：证明了溯源信号（如置信度、编辑类型、布局区域）可以有效识别不稳定的输出，帮助研究人员优先处理高风险的人工审查，支持“不确定性感知”的解释。

4. 主要结果 (Results)

4.1 修正路径显著改变实体提取

完全修正虽然增加了提取的实体数量（从 1184 增至 1342 个提及），但也带来了最高的不稳定性（176 个波动实体，即在不同变体中出现/消失或形式改变）。
溯源过滤修正在保留大部分覆盖率增益（1287 个提及）的同时，显著降低了不稳定性（降至 121 个波动实体）。这表明溯源过滤并非简单地“回退”修正，而是选择了一条风险更可控的分析路径。

4.2 信任策略的权衡 (Coverage-Stability Trade-off)

随着置信度阈值提高（或仅使用人工审核），实体波动性单调下降，但覆盖率也随之降低。
中等阈值（如置信度 $\ge$ 0.70）提供了一个平衡点，既保留了修正带来的识别率提升，又过滤掉了大部分高风险变动。

4.3 溯源信号预测不稳定性

研究发现某些特定的修正特征与下游不稳定性高度相关：

边界编辑（拆分/合并）：虽然频率较低，但引发的波动性提升最大（3.3 倍），因为实体识别对分词边界极其敏感。
非正文区域（页眉/脚注）：这些区域的修正往往是“不稳定热点”，反映了 OCR 在复杂排版下的固有挑战。
低置信度/未审核：这些信号虽然粗糙，但能有效标记出需要人工重点审查的修正。

4.4 实体链接的敏感性

修正路径不仅影响实体提取，还影响实体链接。完全修正可能通过修复噪声提高链接覆盖率，但也可能因过度归一化（改变历史拼写）导致链接到错误的知识库实体。溯源过滤能有效减少由低置信度修正引起的链接错误。

5. 意义与价值 (Significance)

提升可复现性与审计能力：将修正视为可追溯的编辑决策序列，而非黑盒操作。研究人员可以明确回答“为什么这个实体被提取/修改了”，从而支持对数据生成过程的审计。
支持源批判 (Source Criticism)：区分“修复”（恢复原文）与“归一化”（改变历史变体）。在数字人文中，保留历史拼写和排版特征往往具有学术价值，溯源机制使这些人为干预变得可见且可争议。
不确定性感知分析：将不确定性量化并嵌入分析流程。研究人员可以根据项目目标（是追求高召回率的探索，还是追求高准确率的解释）动态调整信任策略，并明确报告其选择的操作点。
范式转变：主张在数字人文的 NLP 管道中，溯源（Provenance）应被视为一等分析层（First-class analytical layer），而不仅仅是实现细节的元数据。这为建立标准化的 DH-NLP 报告规范奠定了基础。

总结：该论文通过引入细粒度的溯源框架，解决了历史文本处理中“修正即黑盒”的痛点，证明了通过管理修正的不确定性，可以显著提高数字人文分析结果的透明度、可解释性和学术严谨性。

From OCR to Analysis: Tracking Correction Provenance in Digital Humanities Pipelines