Leveraging Model Soups to Classify Intangible Cultural Heritage Images from the Mekong Delta

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**如何用人工智能更好地识别和保护“湄公河三角洲非物质文化遗产”**的故事。

想象一下，你是一位想要整理和分类古老文化照片的图书管理员。这些照片里记录着越南湄公河三角洲的民间音乐、节日庆典、手工艺（比如编竹篮、织席子）等。

1. 遇到的难题：照片太像了，而且数量很少

挑战一：照片长得太像。 比如，“美隆海祭”和“新福西庙的祭祀仪式”，在照片里看起来都是人们穿着传统服装在河边或庙里，背景也很像。让电脑区分它们，就像让一个人区分两杯几乎一模一样的白开水，非常困难。
挑战二：样本太少。 这些珍贵的文化照片不像猫狗照片那样有百万张，高质量的标注数据很少。
挑战三：电脑容易“死记硬背”。 在数据少的情况下，普通的深度学习模型（AI 大脑）很容易“死记硬背”训练数据，导致在遇到新照片时表现很差（过拟合）。

2. 解决方案：两个绝招

为了解决这个问题，作者团队提出了两个核心策略：

绝招一：请了一位“全能教练” (CoAtNet)

普通的 AI 模型要么擅长看局部细节（像 CNN），要么擅长看整体关系（像 Transformer）。
作者选用了 CoAtNet 模型，这就像请了一位既懂显微镜又懂望远镜的全能教练。

它既能看清照片里的微小纹理（比如竹篮的编织纹路）。
又能理解照片的整体氛围（比如节日的热闹场面）。
这种“混合双打”的能力，让它非常适合处理这种复杂且数据少的文化照片。

绝招二：搞了个“模型汤” (Model Soups)

这是论文最精彩的部分。通常，训练一个 AI 模型就像让一个学生复习备考。

传统做法： 训练一个学生，或者训练十个不同的学生，考试时让他们一起投票（Soft Voting）。但这需要同时记住十个学生，很占内存，而且如果这十个学生思路都差不多，投票也没用。
本文做法（Model Soups）： 作者只训练一个学生，但在复习过程中，记录了他在不同阶段的8 个“最佳状态”（比如第 10 天状态好，第 20 天状态好，第 30 天状态好）。
做汤的过程： 作者把这 8 个不同阶段的“大脑权重”（知识）倒进锅里，搅拌均匀，做成了一碗**“模型汤”**。
- 均匀汤 (Uniform Soup)： 把这 8 个状态简单平均。
- 贪婪汤 (Greedy Soup)： 像挑食材一样，只选那些能让汤更好喝（准确率更高）的状态加进去。

为什么要做汤？
想象一下，如果你只吃一顿饭（一个模型），可能会营养不均衡。但如果你把一个人一天中不同时间点的最佳状态“融合”在一起，他就变成了一个更稳定、更不容易犯错的“超级人”。这碗汤不需要额外的计算量，喝起来（推理时）和原来一样快，但味道（准确率）更好了。

3. 实验结果：汤真的很好喝

作者在包含 17 种文化类别的 7406 张照片上进行了测试：

成绩： 他们的“模型汤”方法达到了 72.36% 的准确率，比之前最好的方法（如 ResNet-50, ViT 等）都要高。
对比： 就像原本只能考 65 分的学生，喝了这碗“模型汤”后，稳定考到了 72 分以上。
特别发现： 通过一种叫“多维缩放”（MDS）的技术，作者发现这碗汤里的“食材”（不同阶段的模型）在思维空间里是分散的（大家想法不同，互补），而不是挤在一起的。这就像组建一个团队，如果 8 个人都只有一种想法，团队很脆弱；如果 8 个人各有专长，团队就很强大。

4. 总结与启示

核心思想： 在数据稀缺的文化保护领域，不需要训练很多个不同的模型，只需要把一个模型在不同阶段的“精华”融合起来，就能获得更好的效果。
比喻： 这就像把一位老匠人一生中不同年份的最佳技艺融合在一起，创造出一个完美的虚拟大师，用来识别和保护这些珍贵的文化遗产。

一句话总结：
这篇论文发明了一种“把 AI 训练过程中的最佳状态混合成汤”的方法，让 AI 在识别越南湄公河三角洲那些长得像、数量少的文化照片时，变得更聪明、更稳定，从而更好地帮助人类保护非物质文化遗产。

Each language version is independently generated for its own context, not a direct translation.

以下是基于论文《Leveraging Model Soups to Classify Intangible Cultural Heritage Images from the Mekong Delta》（利用模型汤分类湄公河三角洲非物质文化遗产图像）的详细技术总结：

1. 研究背景与问题 (Problem)

核心任务：对湄公河三角洲地区的**非物质文化遗产（ICH）**图像进行分类。该任务对于文化保护、记录和数字化传播至关重要。
主要挑战：
- 数据稀缺与噪声：高质量标注数据有限（ICH-17 数据集仅 7,406 张图像，17 个类别），且包含大量噪声和无关图像。
- 类间相似性高：不同类别的图像在视觉上下文上高度相似（例如“美隆海祭”与“新福西庙祈安大典”），导致区分困难。
- 领域异质性：文化实践的多样性使得特征提取复杂。
- 模型泛化困难：在低资源设置下，传统深度学习模型容易出现高方差或过拟合虚假相关性，导致泛化能力差。

2. 方法论 (Methodology)

本文提出了一种结合混合架构与权重空间集成的鲁棒框架：

骨干网络：CoAtNet (Hybrid Architecture)
- 采用 CoAtNet 作为基础模型，这是一种结合了卷积操作（CNN）和自注意力机制（Self-Attention）的混合架构。
- 设计优势：前几个阶段（ $S_0, S_1, S_2$ ）使用卷积块（MBConv）捕捉局部特征，后几个阶段（ $S_3, S_4$ ）过渡到 Transformer 块以建模长程依赖。这种设计平衡了归纳偏置（空间泛化）和全局上下文建模能力。
- 模型变体：使用了在 ImageNet-1k 预训练的 CoAtNet-0 和 ImageNet-12k 预训练后微调的 CoAtNet-2。
集成策略：Model Soups (模型汤)
- 核心思想：不训练多个独立模型，而是从单次训练轨迹中收集多个检查点（Checkpoints），通过权重空间平均（Weight-space Ensembling）生成最终模型。
- 优势：无需额外的推理成本（Inference Cost），因为最终只部署一个平均后的模型。
- 两种策略：
  1. Uniform Soup (均匀汤)：直接平均所有选定的检查点权重。
  2. Greedy Soup (贪婪汤)：首先选择验证集表现最好的检查点，然后迭代地添加其他检查点，仅当平均后的临时模型在验证集上表现提升时才保留。
- 实现细节：保存每个指标（Loss, Accuracy, F1）的前 8 个最佳检查点，共 24 个候选点，通过贪婪选择算法筛选出最终用于平均的子集。
多样性分析工具
- 使用基于交叉熵的距离度量和**多维缩放（MDS）**技术，将模型在输出空间（Softmax 概率分布）的几何分布可视化，以证明模型汤选择的检查点具有几何多样性，而非冗余。

3. 关键贡献 (Key Contributions)

首个应用：据作者所知，这是首次将基于 CoAtNet 的模型汤（Model Soups）技术应用于文化遗产数据集的分类任务。
低资源下的泛化提升：证明了在数据稀缺且噪声大的场景下，通过单次训练轨迹的检查点平均，能有效降低方差，提升泛化能力，且无需增加推理延迟。
理论分析：从偏差 - 方差分解（Bias-Variance Decomposition）角度分析了模型汤的作用，指出其通过稳定不同快照的预测来减少方差，同时引入极小的偏差。
多样性验证：通过 MDS 可视化证明，模型汤选择的检查点在输出空间中分布广泛（几何多样性），而传统的 Soft Voting 往往集中在冗余模型附近。

4. 实验结果 (Results)

数据集：ICH-17 数据集（17 类，7,406 张图像），划分为训练集（6,057）、验证集（600）和测试集（749）。
主要性能指标（在测试集上）：
- 最佳模型：CoAtNet-2 + Uniform Soup。
- Top-1 准确率：72.36%（相比基线 CoAtNet-2 提升 0.93%）。
- Macro F1-Score：69.28%（相比基线提升 0.70%）。
对比基线：
- 优于 ResNet-50 (65.55%)、DenseNet-121 (64.35%) 和 ViT (70.09%)。
- 优于之前的相关研究（Do et al. [4] 65.32%, Tran et al. [12] 66.76%）。
消融实验：
- 预训练的重要性：若不使用 ImageNet 预训练（从头训练），准确率下降约 20-22 个百分点，证明了预训练在低资源场景下的关键作用。
- 策略对比：Uniform Soup 在 CoAtNet-2 上表现最佳；Greedy Soup 在较小模型（CoAtNet-0）上有时表现略优，但总体两者均显著优于单一模型。
类别表现：模型汤在 17 个类别中的 12 个类别上提升了 F1 分数，特别是在复杂或模糊的类别（如第 6 类"Ok Om Bok 节”）上，准确率从 61.70% 提升至 74.47%。

5. 意义与结论 (Significance & Conclusion)

技术意义：该研究证明了“多样性感知”的检查点平均（Model Soups）是一种高效、低成本且原理清晰的提升泛化能力的方法。它特别适用于文化保护等数据稀缺、标注困难且类间差异细微的领域。
实际应用：为湄公河三角洲乃至更广泛的非物质文化遗产的数字化保护提供了可扩展的 AI 解决方案。
未来方向：计划引入语义先验和多模态信号（如文本元数据）以进一步提升性能，并将方法扩展到其他地区的 ICH 数据集，推动全球文化遗产的包容性 AI 保护。

总结：本文通过结合 CoAtNet 的混合架构优势与 Model Soups 的权重集成技术，成功解决了湄公河三角洲非物质文化遗产图像分类中的小样本和类间相似性难题，实现了当前该数据集上的最先进（SOTA）性能，并深入揭示了集成学习在降低方差和增强模型鲁棒性方面的几何与统计机制。

Leveraging Model Soups to Classify Intangible Cultural Heritage Images from the Mekong Delta

1. 遇到的难题：照片太像了，而且数量很少

2. 解决方案：两个绝招

绝招一：请了一位“全能教练” (CoAtNet)

绝招二：搞了个“模型汤” (Model Soups)

3. 实验结果：汤真的很好喝

4. 总结与启示

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与结论 (Significance & Conclusion)

类似论文

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers