DerMAE: Improving skin lesion classification through conditioned latent diffusion and MAE distillation

O artigo apresenta o DerMAE, um método que utiliza modelos de difusão condicionados para gerar imagens sintéticas e pré-treinamento MAE para melhorar a classificação de lesões de pele em cenários de desequilíbrio de classes, transferindo o conhecimento para modelos leves via destilação para viabilizar sua implementação em dispositivos móveis.

Francisco Filho, Kelvin Cunha, Fábio Papais, Emanoel dos Santos, Rodrigo Mota, Thales Bezerra, Erico Medeiros, Paulo Borba, Tsang Ing Ren

Publicado 2026-02-24
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um médico especialista em pele, mas você só tem acesso a um livro de fotos de doenças de pele que está desequilibrado.

Nesse livro, há milhares de fotos de pintas comuns e inofensivas (benignas), mas apenas algumas poucas fotos de câncer de pele (maligno). Se você tentar ensinar um computador a aprender com esse livro, ele vai ficar "preguiçoso": vai achar que toda mancha é inofensiva, porque é isso que ele vê o tempo todo. Quando ele finalmente encontrar um caso de câncer, ele provavelmente vai errar, achando que é apenas uma pintinha comum. Isso é perigoso.

Os autores deste trabalho, do Brasil, criaram uma solução inteligente em três etapas para consertar isso e colocar um "médico digital" no celular de qualquer pessoa. Vamos entender como funciona usando analogias simples:

1. O "Chef de Cozinha" que Cria Pratos Novos (Geração Sintética)

O primeiro problema é a falta de fotos de câncer. A equipe usou uma tecnologia chamada Modelo de Difusão (o mesmo tipo de IA que cria imagens a partir de texto, como o DALL-E ou Midjourney).

  • A Analogia: Imagine que o livro de receitas (o conjunto de dados) tem 90% de receitas de bolo de cenoura e apenas 10% de bolo de chocolate. O chef (a IA) precisa aprender a fazer os dois.
  • A Solução: Em vez de apenas cortar e colar pedaços das fotos existentes (o que é como tentar fazer um bolo de chocolate misturando cenoura com chocolate), eles usaram um "Chef de IA" para criar receitas de bolo de chocolate do zero.
  • O Truque: Eles ensinaram esse chef a criar fotos de lesões malignas (câncer) especificamente quando pediam, equilibrando a "prateleira" de fotos. Eles também usaram um "gosto refinado" (uma perda perceptiva) para garantir que as fotos criadas parecessem reais e não apenas borrões coloridos.

2. O "Estudante de Elite" que Aprende Sozinho (Pré-treinamento MAE)

Agora que eles tinham muitas fotos (reais + criadas), precisavam ensinar um computador a entendê-las. Eles usaram um modelo gigante chamado ViT-H (uma rede neural muito poderosa, mas pesada).

  • A Analogia: Imagine um estudante universitário brilhante (o modelo ViT-H) que precisa aprender a identificar doenças. Mas ele não pode apenas olhar para as fotos e tentar memorizar.
  • O Truque: Eles cobriram 75% da foto com um "papel de parede" (máscara) e pediram para o estudante adivinhar o que estava escondido. Para fazer isso, ele teve que aprender a entender a estrutura global da lesão, e não apenas detalhes pequenos.
  • O Resultado: Esse estudante aprendeu muito bem, usando as fotos criadas pelo "Chef" para se tornar um especialista em entender a diferença entre uma pintinha e um câncer, mesmo sem ter visto muitos exemplos reais de câncer no início.

3. O "Mestre" que Ensina um "Estagiário" (Distilação de Conhecimento)

O problema é que esse "Estudante de Elite" (ViT-H) é gigante. Ele é como um supercomputador que cabe em um servidor de dados, mas não cabe no seu celular. Se tentássemos rodar isso no celular de um médico em uma zona rural, o celular travaria.

  • A Analogia: Precisamos de um Estagiário (um modelo menor, como o ViT-B ou EfficientNet) que seja leve, rápido e rode no celular. Mas o estagiário é "burro" comparado ao mestre.
  • A Solução: Eles usaram uma técnica chamada Distilação de Conhecimento. É como se o Mestre (o modelo gigante pré-treinado) passasse um curso intensivo para o Estagiário.
    • O Mestre não apenas diz "Isso é câncer".
    • Ele explica por que é câncer, mostrando as nuances e a probabilidade de ser maligno.
    • O Estagiário aprende a pensar como o Mestre, mas com um cérebro muito menor e mais rápido.

O Resultado Final

No final, eles conseguiram:

  1. Resolver o desequilíbrio: Criaram fotos de câncer suficientes para ensinar a IA a não ter medo de errar.
  2. Aprendizado robusto: A IA aprendeu a ver padrões complexos usando o método de "adivinhar o que está escondido".
  3. Leveza para o mundo real: Transferiram a inteligência do "gigante" para um "pequeno" que cabe no celular.

Por que isso importa?
Isso significa que, no futuro, um médico generalista ou até um paciente em uma área remota poderá tirar uma foto de uma lesão na pele com o celular e receber uma análise precisa e rápida, ajudando a detectar câncer de pele mais cedo, mesmo sem ter um dermatologista especialista por perto. A IA aprendeu a ser justa (não ignorando os casos raros) e eficiente (rodando em qualquer aparelho).

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →