Leveraging Model Soups to Classify Intangible Cultural Heritage Images from the Mekong Delta

Este artigo propõe um framework robusto que combina a arquitetura híbrida CoAtNet com a técnica de "model soups" para classificar imagens de Patrimônio Cultural Imaterial do Delta do Mekong, alcançando resultados state-of-the-art ao reduzir a variância e melhorar a generalização em cenários com dados limitados.

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham

Publicado 2026-03-10
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma biblioteca gigante de fotos antigas do Delta do Mekong, no Vietnã. Essas fotos mostram festas, músicas tradicionais, artesanato e rituais sagrados que são parte da "alma" daquela cultura. O problema é que muitas dessas fotos se parecem muito entre si. Por exemplo, uma foto de uma festa de barco pode parecer quase idêntica a uma foto de uma cerimônia em um templo.

Os pesquisadores deste artigo queriam ensinar um computador a distinguir essas fotos com perfeição, mas havia um obstáculo: não havia muitas fotos de cada tipo para treinar o computador, e as fotos que existiam eram cheias de ruídos e confusão.

Aqui está a explicação simples do que eles fizeram, usando analogias do dia a dia:

1. O Problema: O Aluno que Decora em Vez de Entender

Normalmente, quando ensinamos um computador a reconhecer imagens, usamos modelos de "Deep Learning" (aprendizado profundo). É como ter um aluno brilhante que estuda muito. Mas, com poucas fotos para estudar, esse aluno tende a decorar as imagens em vez de entender o conceito. Se ele vir uma foto um pouco diferente na prova, ele se confunde. Isso é chamado de "sobreajuste" (overfitting).

2. A Solução: O "Sopa de Modelos" (Model Soups)

Em vez de tentar criar um único aluno perfeito, os pesquisadores decidiram criar uma sopa.

  • A Metáfora da Sopa: Imagine que você está cozinhando uma sopa deliciosa. Você não joga apenas um ingrediente. Você pega vários potes de caldo que você preparou em momentos diferentes durante o dia (alguns mais salgados, outros mais doces, alguns com mais legumes).
  • O que eles fizeram: Eles treinaram um modelo de inteligência artificial (chamado CoAtNet) e, em vez de parar no final, salvaram várias versões dele durante o processo de aprendizado. Essas versões são como os "potes de caldo".
  • A Mistura (Model Soups): Em vez de escolher apenas o "melhor" pote, eles misturaram (fizeram a média dos pesos) vários desses potes salvos. O resultado é uma "sopa" que tem o melhor de todos os momentos de aprendizado. Se um pote estava um pouco salgado demais (tendia a errar de um jeito) e outro estava sem sal (tendia a errar de outro jeito), a mistura equilibra tudo, criando um sabor (uma previsão) muito mais estável e confiável.

3. O Ingrediente Secreto: CoAtNet

O modelo base que eles usaram, o CoAtNet, é como um cozinheiro que tem duas habilidades especiais:

  1. Olhar de perto: Ele usa "convoluções" para ver detalhes pequenos, como a textura de um tecido ou o rosto de uma pessoa.
  2. Olhar de longe: Ele usa "atenção" (como um Transformer) para entender o contexto geral, como ver que a pessoa está em um barco em um rio, não apenas em um fundo azul.
    Essa combinação híbrida é perfeita para entender culturas complexas onde os detalhes e o cenário importam igualmente.

4. Como Eles Sabiam o que Misturar?

Eles não misturaram tudo aleatoriamente. Usaram duas estratégias:

  • Sopa Uniforme: Pegaram vários potes bons e misturaram tudo igualmente.
  • Sopa Gananciosa (Greedy): Começaram com o melhor pote e foram adicionando outros potes apenas se eles melhorassem o sabor da sopa. Se um pote estragasse a mistura, eles não o incluíam.

5. O Resultado: Uma Turma Mais Sábia

Para provar que a "sopa" era melhor do que apenas olhar para as previsões individuais (como uma votação simples onde todos têm um voto), eles usaram uma técnica chamada MDS (Escalonamento Multidimensional).

  • A Analogia do Mapa: Imagine que cada modelo de computador é uma pessoa em uma sala.
    • Se você fizer uma "Votação Simples" (Soft Voting), você está juntando pessoas que estão todas sentadas no mesmo canto da sala, pensando exatamente a mesma coisa. Se elas estiverem erradas, todas estarão erradas juntas.
    • A "Sopa de Modelos", por outro lado, selecionou pessoas que estavam espalhadas pela sala, em lugares diferentes, com pontos de vista diferentes. Quando você as mistura, você cria um consenso muito mais inteligente e robusto.

Conclusão

O estudo mostrou que essa técnica de "fazer uma sopa" com várias versões do mesmo modelo funcionou muito bem.

  • Eles conseguiram classificar as fotos culturais com 72,36% de precisão, superando todos os métodos anteriores.
  • Isso é crucial para preservar a cultura, pois permite digitalizar e organizar memórias históricas que, de outra forma, poderiam se perder ou ser confundidas.

Em resumo: Em vez de confiar em um único especialista que pode estar cansado ou confuso, eles criaram um "conselho de sábios" (a sopa) que combina as melhores ideias de vários momentos de aprendizado, resultando em uma decisão muito mais precisa e segura para preservar a herança cultural do Delta do Mekong.