Leveraging GenAI for Segmenting and Labeling Centuries-old Technical Documents

本文介绍了利用 SAM2、Florence2、ChatGPT 结合专用本体与术语表,对 16 至 17 世纪造船文献进行图像分割与标注的研究,旨在通过生成式人工智能技术解决历史文档数据稀缺与领域专业化难题,从而提升珍贵文献的策展、编目及检索效率。

Carlos Monroy, Benjamin Navarro

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个非常有趣的故事:研究人员试图教人工智能(AI)如何“读懂”几百年前那些晦涩难懂的造船图纸和古籍

想象一下,你手里有一本几百年前的“造船秘籍”,里面画满了复杂的船只结构图,用的是古老的文字,而且纸张已经发黄破损。对于普通现代人来说,这就像看天书;但对于历史学家和造船专家来说,这是无价之宝。

这篇论文的核心就是:如何利用最新的 AI 技术,像给这些古籍“贴标签”和“做解剖”一样,让电脑自动识别并理解这些古老的图像。

为了让你更容易理解,我们可以用几个生动的比喻来拆解这个过程:

1. 遇到的难题:AI 的“视力”盲区

现在的 AI(比如 Meta 公司的 SAM2 模型)非常聪明,看现代照片时,它能一眼认出“这是猫”、“那是桌子”。这就像是一个在繁华都市里长大的孩子,见过成千上万张现代照片,所以认东西特别快。

但是,当这个“都市孩子”突然被扔进一个几百年前的造船作坊里,看着那些线条复杂、术语生僻的古老图纸时,他就懵了。

  • 原因一:它没怎么见过这种图(训练数据太少)。
  • 原因二:它不懂行话。比如图纸上画了一个奇怪的零件叫"Rider Frame",AI 可能会把它误认为是摩托车的架子,或者法律文件里的条款,因为它不知道在造船语境下它指的是船体的一部分。

2. 解决方案:给 AI 配个“老船长”和“字典”

为了解决这个问题,研究团队设计了一套“三步走”的流水线,就像给 AI 配了一位老练的向导和一本专业字典

第一步:像“切蛋糕”一样分割图像 (Segmentation)

首先,他们用了 SAM2 这个 AI 工具。

  • 比喻:想象一张复杂的拼图。SAM2 就像一把智能手术刀,它能自动把整张图切成一块一块的小碎片,把“船身”、“船帆”、“绳索”等不同的部分区分开来,而不是把整张图当成一个模糊的大团。
  • 效果:它能把一张大图中复杂的船体结构,精准地拆解成一个个独立的小零件。

第二步:给碎片“起名字” (Labeling)

切好之后,AI 需要知道每一块碎片叫什么。

  • 普通做法:让 AI 自己猜(比如用 BLIP 或 RAM 模型)。这就像让一个不懂造船的人看图说话,他可能会说“这是个木头”、“那是个轮子”,虽然没错,但不够专业。
  • 高级做法(论文的重点):他们引入了 ChatGPTFlorence-2,但不仅仅是让它们瞎猜。
  • 比喻:这就像给 AI 请了一位老船长(专家)。当 AI 看到一个零件时,老船长会告诉它:“别瞎猜,这是‘龙骨’,不是‘木棍’;这是‘尾柱’,不是‘柱子’。”

第三步:注入“灵魂”——专业词典与知识图谱 (Ontology & Glossary)

这是最关键的一步。研究团队建立了一个专门的造船术语字典(glosShip) 和一个知识地图(ontoShip)

  • 比喻
    • 字典:就像一本只有造船专家才懂的《古船零件百科全书》。
    • 知识地图:就像一张关系网。它告诉 AI:“如果这个零件叫‘龙骨’,那它一定在船的底部;如果叫‘桅杆’,那它一定竖在中间。”
  • 作用:当 AI 看到一张图时,它不再只是看形状,而是结合这张“知识地图”去推理。比如,AI 发现一个零件在船底,结合知识地图,它就能更准确地判断出这是“龙骨”而不是别的。这就像给 AI 戴上了一副专业眼镜,让它能透过现象看本质。

3. 实验结果:有惊喜,也有教训

研究人员尝试了不同的组合:

  • 纯 AI 猜:有时候能猜对,但经常把“滑轮”认成“轴”,把“书边”认成“尖刀”。就像那个不懂行的孩子,虽然热情,但经常闹笑话。
  • AI + 专家字典:准确率大大提高了!AI 能识别出更多细节,比如把船上的每一个小零件都标上正确的名字。
  • 挑战:有时候 AI 还是会“过度解读”,把一些无关的阴影也当成零件标出来。这说明虽然技术很强,但还需要人类专家来把关和修正。

4. 未来的愿景:让历史“活”起来

这项工作的最终目的,不仅仅是给图片打标签。

  • 比喻:想象一下,以前你在图书馆找一本几百年前的造船书,你得像侦探一样一页页翻,凭感觉找图。
  • 未来:有了这套系统,你可以直接对电脑说:“帮我找所有关于‘船底龙骨’的图纸。”电脑就能瞬间从几千张古老的、模糊的、甚至破损的图纸中,精准地把相关部分挑出来给你看。

总结

这篇论文就像是在教一个高科技机器人去当一名考古学家
它利用最先进的 AI 技术(像手术刀一样切割图像),再配上人类专家的智慧(像字典和知识地图一样提供背景知识),试图解开几百年前造船工匠留下的谜题。

虽然目前 AI 还会犯一些“常识性错误”,但这种方法为保护、整理和传播人类珍贵的文化遗产打开了一扇新的大门。未来,这些沉睡在博物馆里的古老图纸,将能被全世界的人轻松搜索、理解和欣赏。