Leveraging Model Soups to Classify Intangible Cultural Heritage Images from the Mekong Delta

本文提出了一种结合 CoAtNet 架构与模型汤(Model Soups)技术的框架,通过集成多样化检查点来降低方差并提升泛化能力,从而在数据稀缺的湄公河三角洲非物质文化遗产图像分类任务中取得了优于现有基准的优异性能。

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**如何用人工智能更好地识别和保护“湄公河三角洲非物质文化遗产”**的故事。

想象一下,你是一位想要整理和分类古老文化照片的图书管理员。这些照片里记录着越南湄公河三角洲的民间音乐、节日庆典、手工艺(比如编竹篮、织席子)等。

1. 遇到的难题:照片太像了,而且数量很少

  • 挑战一:照片长得太像。 比如,“美隆海祭”和“新福西庙的祭祀仪式”,在照片里看起来都是人们穿着传统服装在河边或庙里,背景也很像。让电脑区分它们,就像让一个人区分两杯几乎一模一样的白开水,非常困难。
  • 挑战二:样本太少。 这些珍贵的文化照片不像猫狗照片那样有百万张,高质量的标注数据很少。
  • 挑战三:电脑容易“死记硬背”。 在数据少的情况下,普通的深度学习模型(AI 大脑)很容易“死记硬背”训练数据,导致在遇到新照片时表现很差(过拟合)。

2. 解决方案:两个绝招

为了解决这个问题,作者团队提出了两个核心策略:

绝招一:请了一位“全能教练” (CoAtNet)

普通的 AI 模型要么擅长看局部细节(像 CNN),要么擅长看整体关系(像 Transformer)。
作者选用了 CoAtNet 模型,这就像请了一位既懂显微镜又懂望远镜的全能教练

  • 它既能看清照片里的微小纹理(比如竹篮的编织纹路)。
  • 又能理解照片的整体氛围(比如节日的热闹场面)。
    这种“混合双打”的能力,让它非常适合处理这种复杂且数据少的文化照片。

绝招二:搞了个“模型汤” (Model Soups)

这是论文最精彩的部分。通常,训练一个 AI 模型就像让一个学生复习备考。

  • 传统做法: 训练一个学生,或者训练十个不同的学生,考试时让他们一起投票(Soft Voting)。但这需要同时记住十个学生,很占内存,而且如果这十个学生思路都差不多,投票也没用。
  • 本文做法(Model Soups): 作者只训练一个学生,但在复习过程中,记录了他在不同阶段的8 个“最佳状态”(比如第 10 天状态好,第 20 天状态好,第 30 天状态好)。
  • 做汤的过程: 作者把这 8 个不同阶段的“大脑权重”(知识)倒进锅里,搅拌均匀,做成了一碗**“模型汤”**。
    • 均匀汤 (Uniform Soup): 把这 8 个状态简单平均。
    • 贪婪汤 (Greedy Soup): 像挑食材一样,只选那些能让汤更好喝(准确率更高)的状态加进去。

为什么要做汤?
想象一下,如果你只吃一顿饭(一个模型),可能会营养不均衡。但如果你把一个人一天中不同时间点的最佳状态“融合”在一起,他就变成了一个更稳定、更不容易犯错的“超级人”。这碗汤不需要额外的计算量,喝起来(推理时)和原来一样快,但味道(准确率)更好了。

3. 实验结果:汤真的很好喝

作者在包含 17 种文化类别的 7406 张照片上进行了测试:

  • 成绩: 他们的“模型汤”方法达到了 72.36% 的准确率,比之前最好的方法(如 ResNet-50, ViT 等)都要高。
  • 对比: 就像原本只能考 65 分的学生,喝了这碗“模型汤”后,稳定考到了 72 分以上。
  • 特别发现: 通过一种叫“多维缩放”(MDS)的技术,作者发现这碗汤里的“食材”(不同阶段的模型)在思维空间里是分散的(大家想法不同,互补),而不是挤在一起的。这就像组建一个团队,如果 8 个人都只有一种想法,团队很脆弱;如果 8 个人各有专长,团队就很强大。

4. 总结与启示

  • 核心思想: 在数据稀缺的文化保护领域,不需要训练很多个不同的模型,只需要把一个模型在不同阶段的“精华”融合起来,就能获得更好的效果。
  • 比喻: 这就像把一位老匠人一生中不同年份的最佳技艺融合在一起,创造出一个完美的虚拟大师,用来识别和保护这些珍贵的文化遗产。

一句话总结:
这篇论文发明了一种“把 AI 训练过程中的最佳状态混合成汤”的方法,让 AI 在识别越南湄公河三角洲那些长得像、数量少的文化照片时,变得更聪明、更稳定,从而更好地帮助人类保护非物质文化遗产。