Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning

该论文提出了一种两阶段框架,通过先在标注的人造字母表上训练对比学习教师模型,再利用蒸馏技术引导学生在无监督条件下学习历史文字系统的变形不变嵌入,从而在无需确切演化关系真值的情况下实现脚本相似性学习与聚类。

Claire Roman, Philippe Meyer

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种非常聪明的“两步走”策略,用来教计算机理解不同文字系统(比如古埃及象形文字、希腊字母、汉字等)之间的相似关系

为了让你轻松理解,我们可以把这项研究想象成教一个学生(AI 模型)去识别和分类各种“手写字体”

核心难题:老师有的知道,有的不知道

想象一下,你有一个学生,你想让他学会分辨不同的文字。

  1. 容易的部分( invented alphabets / 人造文字):
    比如《飞出个未来》里的外星文字,或者托尔金《指环王》里的精灵语。这些文字是现代人凭空创造的,谁是谁非常清楚

    • 比喻: 就像教孩子认“苹果”和“香蕉”。苹果就是苹果,香蕉就是香蕉,它们之间绝对没有关系。你可以非常自信地告诉学生:“这两个长得像的苹果是同一类,那个香蕉和它们完全不同。”
  2. 困难的部分(historical scripts / 历史文字):
    比如古希腊文、拉丁文、中文。这些文字经过了几千年的演变,有的可能互相影响过,有的可能源自同一个祖先,但历史学家们经常争论,没有定论

    • 比喻: 就像让你去分辨“爷爷”和“叔叔”的关系。如果你强行告诉学生:“这两个肯定没关系(把它们当成完全不同的东西)”,万一他们其实有血缘关系呢?这就叫“强行定义负样本”,可能会把错误的知识教给学生。

以前的 AI 方法往往试图一次性解决所有问题,强行把不确定的历史文字也当成“肯定没关系”来处理,结果学歪了。


论文的方案:先当“严师”,再当“导师”

作者设计了一个两阶段框架,就像是一个**“先打基础,后悟道”**的过程:

第一阶段:严师出高徒(在人造文字上训练)

  • 做什么: 先用那些身份明确的人造文字(如精灵语)来训练一个“老师模型”(Teacher)。
  • 怎么教: 使用“对比学习”。就像老师拿着苹果和香蕉,大声告诉学生:“看,这两个苹果是一伙的,那个香蕉是敌人,离远点!”
  • 结果: 学生学会了非常敏锐的**“分辨能力”**。它能一眼看出两个符号是不是长得像,能不能归为一类。这时候,它脑子里有一个清晰的“分类地图”。

第二阶段:导师带徒弟(在历史文字上微调)

  • 做什么: 现在要把这个“老师”的知识,传授给一个“学生模型”,让它去处理那些历史关系不明的古文字。
  • 怎么教(关键创新):
    • 老师不直接告诉学生“这两个古文字肯定没关系”。
    • 老师只是展示给学生看:“你看,这两个符号(比如希腊文和拉丁文)长得有点像,你试着去理解它们为什么像,但不要强行把它们划为敌人。”
    • 这就像老师给学生一个**“直觉”“指南针”**,让学生自己去探索历史文字之间微妙的联系。学生可以保留老师教好的“分辨能力”,同时自由地发现那些历史上可能存在的“亲戚关系”。
  • 比喻: 就像老师给了学生一张画好轮廓的地图(第一阶段学到的清晰分类),然后让学生去探索地图边缘那些模糊的、可能有新发现的小路(第二阶段的历史文字),而不是把地图边缘直接涂黑说“这里什么都没有”。

为什么这个方法很厉害?

  1. 既懂“硬道理”,又懂“软关系”:

    • 它既能像以前一样,准确地把完全不同的文字区分开(比如把汉字和拉丁字母分得清清楚楚)。
    • 它又能发现那些微妙的历史联系。比如,它可能会发现希腊字母和拉丁字母在几何结构上非常亲近,就像发现了它们其实是“远房表亲”,而以前强行把它们当敌人的方法就做不到这一点。
  2. 不需要完美的历史答案:
    这种方法不需要历史学家先给出一个完美的“文字族谱”。它允许 AI 自己去发现那些**“可能”**存在的联系,即使这些联系在历史上还有争议。

实验结果:真的有用吗?

作者用了很多种文字系统(包括真实的古文字和人造文字)来测试:

  • 认字能力(Few-shot): 给 AI 看一个没见过的字,它能认出这是哪个字母吗?结果:表现很好,和顶尖方法一样强。
  • 排座次能力(Script Ranking): 给 AI 一个文字(比如希腊文),让它把其他文字按“亲疏关系”排个序。结果:AI 排出来的顺序,和历史语言学家认为的顺序非常吻合!这说明它真的“懂”了文字之间的历史渊源。

总结

这篇论文的核心思想就是:不要试图一次性解决所有不确定的问题。

先在一个完全确定的环境里把基本功练扎实(学会分辨),然后再把这个基本功带到充满不确定性的真实历史环境中去,让 AI 自己去探索发现那些微妙的联系,而不是被强行灌输错误的“非黑即白”的结论。

这就好比先让孩子在动物园里把老虎和狮子分得清清楚楚,然后再带他去野外,让他自己去观察那些长得像老虎的猫科动物之间,到底有着怎样千丝万缕的亲戚关系。