Dual-Teacher Distillation with Subnetwork Rectification for Black-Box Domain Adaptation

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um chef de cozinha talentoso (o Modelo de Origem) que criou uma receita secreta e incrível para fazer um prato específico. No entanto, por questões de privacidade ou segredo industrial, você não pode mostrar a receita, nem os ingredientes, nem mesmo a sua cozinha para ninguém. Você só pode dizer: "Se você me der um ingrediente novo, eu digo se combina ou não com o meu prato".

Agora, imagine que você quer ensinar um novo aprendiz (o Modelo Alvo) a cozinhar esse mesmo prato, mas usando ingredientes diferentes (o Domínio Alvo) que você nunca viu antes. O grande desafio é: como o aprendiz aprende sem ver a receita original e sem ter os ingredientes originais?

É aqui que entra o DDSR, a técnica proposta neste artigo. Vamos explicar como funciona usando uma analogia de "Mentores e Ajustes".

O Problema: O Chef Cego e o Novo Mercado

Normalmente, para ensinar alguém, você daria a receita e os ingredientes. Mas no mundo da Inteligência Artificial, muitas vezes temos apenas o "Chef Cego" (o modelo original). Ele tenta classificar os novos ingredientes, mas como eles são diferentes, ele comete erros. Se o aprendiz seguir cegamente o Chef Cego, ele vai aprender errado.

Além disso, existe um "Sábio Universal" (o modelo CLIP, uma IA que vê imagens e entende texto). Esse Sábio sabe o que é um "cachorro" ou um "carro" de forma geral, mas não é especialista no prato específico do Chef.

A Solução: O Duplo Mentor com Ajuste Fino

Os autores criaram um sistema de duas etapas para resolver isso:

Etapa 1: A Reunião de Mentores (Distilação Dupla)

Em vez de confiar apenas no Chef Cego, o aprendiz tem dois mentores:

O Chef Cego: Sabe o prato específico, mas pode errar com os novos ingredientes.
O Sábio Universal (CLIP): Sabe o que são as coisas no geral, mas não conhece o segredo do prato.

O Truque da Fusão Adaptativa:
O sistema não dá a mesma importância para os dois o tempo todo. Ele usa um "termômetro de confiança":

Se o novo mercado (o conjunto de dados) é pequeno, o sistema ouve mais o Chef Cego, porque ele conhece o "sabor" do prato, mesmo que os ingredientes sejam estranhos.
Se o novo mercado é grande, o sistema ouve mais o Sábio Universal, porque ele tem uma visão mais clara e geral das coisas.

Eles se juntam para dar uma "rótulo de confiança" (uma etiqueta) para cada ingrediente novo.

O Guarda-Costas (Sub-rede de Retificação):
Às vezes, os mentores podem estar errados e o aprendiz pode ficar obcecado em aprender o erro (como um aluno que decora a resposta errada de um professor distraído). Para evitar isso, o sistema cria um "Guarda-Costas" (uma sub-rede menor).

O Guarda-Costas tenta fazer o mesmo que o aprendiz, mas de forma mais simples.
Se o aprendiz e o Guarda-Costas começarem a concordar demais em algo errado, o sistema percebe: "Ei, vocês dois estão presos no mesmo erro!".
Isso força o aprendiz a pensar de forma diferente e não apenas decorar os erros dos mentores.

Etapa 2: O Polimento Final (Protótipos)

Depois de treinar um pouco, o aprendiz já está ficando bom. Agora, o sistema faz uma "limpeza":

Ele agrupa os ingredientes que parecem semelhantes (como "todos os tomates vermelhos" ou "todos os pimentões").
Ele cria um "modelo ideal" (um protótipo) para cada grupo.
Se um ingrediente foi classificado errado pelo mentor, mas se parece muito com o "modelo ideal" de outro grupo, o sistema corrige o rótulo. É como se o aprendiz dissesse: "Espera, esse ingrediente parece mais com o grupo X do que com o Y, vou mudar minha resposta".

Por que isso é importante?

Imagine que você está tentando adaptar um sistema de reconhecimento facial de um escritório americano para um escritório brasileiro, mas não pode usar os dados originais dos americanos (por privacidade).

Métodos antigos tentavam adivinhar apenas com o modelo americano, o que gerava muitos erros.
Métodos que usavam apenas o "Sábio Universal" (CLIP) eram muito genéricos e perdiam detalhes específicos.
O DDSR combina o melhor dos dois mundos: a experiência específica do modelo antigo e o conhecimento geral do mundo, ajustando a mistura conforme o tamanho do novo grupo de pessoas.

O Resultado

Os testes mostraram que essa técnica funciona muito bem, superando até mesmo métodos que tinham acesso aos dados originais (o que é raro e difícil de conseguir). É como se o aprendiz, sem nunca ter visto a receita original, conseguisse cozinhar tão bem quanto o chef mestre, apenas ouvindo as dicas certas e ajustando o tempero no caminho.

Em resumo: O DDSR é um método inteligente que usa dois professores (um especialista e um generalista), ajusta a confiança neles dependendo do tamanho da turma, usa um "guarda-costas" para evitar erros de aprendizado e faz uma revisão final para garantir que tudo esteja perfeito.

Each language version is independently generated for its own context, not a direct translation.

Título: Distilação de Duplo Professor com Retificação de Subrede para Adaptação de Domínio de Caixa-Preta

1. O Problema: Adaptação de Domínio de Caixa-Preta (BBDA)

O artigo aborda o desafio da Adaptação de Domínio de Caixa-Preta (Black-Box Domain Adaptation - BBDA). Diferente da Adaptação de Domínio Não Supervisionada (UDA) e da Adaptação Livre de Fonte (SFDA), a BBDA impõe restrições extremas:

Acesso Restrito: Nem os dados de origem (source data) nem o modelo de origem (source model) são acessíveis. O modelo de origem é tratado como uma "caixa-preta", onde apenas suas previsões (rótulos) sobre as amostras do domínio alvo podem ser consultadas via API.
Desafios: A distribuição de dados entre os domínios de origem e alvo difere, fazendo com que o modelo de caixa-preta produza previsões imprecisas e ruidosas no domínio alvo.
Limitações das Abordagens Atuais: Métodos existentes que tentam refinar pseudo-rótulos ou usam apenas o modelo de caixa-preta sofrem com ruído excessivo. Métodos que incorporam Modelos Visão-Linguagem (ViLs), como o CLIP, muitas vezes não aproveitam suficientemente os priores semânticos ou falham em integrar o conhecimento específico do modelo de origem, resultando em desempenho limitado.

2. Metodologia Proposta: DDSR

Os autores propõem o modelo DDSR (Dual-Teacher Distillation with Subnetwork Rectification), que opera em duas etapas principais para combinar o conhecimento específico do modelo de caixa-preta com o conhecimento semântico geral do CLIP.

Etapa 1: Distilação de Conhecimento de Duplo Professor com Fusão Adaptativa

Arquitetura de Duplo Professor: O modelo de caixa-preta e o modelo CLIP atuam como dois professores. O modelo alvo (aluno) é treinado para imitar a fusão de suas previsões.
Fusão Adaptativa de Previsões: Em vez de uma média fixa, o DDSR utiliza um módulo de fusão que pondera dinamicamente as previsões do CLIP ( $\hat{y}_c$ $\overset{y}{^}_{c}$ ) e do modelo de origem ( $\hat{y}_b$ $\overset{y}{^}_{b}$ ) com base na entropia (incerteza) das previsões e no tamanho do domínio alvo ( $n_t$ $n_{t}$ ).
- Se o domínio alvo for grande, o CLIP (mais robusto semanticamente) recebe maior peso.
- Se o domínio alvo for pequeno, o conhecimento específico do modelo de origem é priorizado, mesmo que sua incerteza seja maior, pois o conhecimento de tarefa específica é considerado mais crítico em conjuntos de dados pequenos.
Retificação por Subrede (Subnetwork Rectification): Para evitar o overfitting aos pseudo-rótulos ruidosos, uma subrede leve (compartilhando parte da estrutura e parâmetros do modelo alvo) é introduzida.
- Regularização: A subrede é usada para regularizar o treinamento do modelo alvo através de duas funções de perda:
  1. Divergência de Saída (Output Alignment): Alinha as distribuições de saída entre a subrede e o modelo completo (usando Divergência Jensen-Shannon).
  2. Discrepância de Gradiente: Maximiza a diferença de gradientes entre a subrede e o modelo completo para forçar a captura de conhecimento complementar e reduzir o viés de ruído.
Auto-Distilação e Ajuste de Prompts: À medida que o treinamento avança, as previsões do modelo alvo são usadas para refinar os pseudo-rótulos (via Média Móvel Exponencial - EMA) e para ajustar (fine-tune) os prompts aprendíveis do CLIP, tornando-os mais específicos ao domínio alvo.

Etapa 2: Refinamento via Auto-Treinamento com Protótipos

Protótipos de Classe: São calculados protótipos de classe baseados nas características extraídas pelo modelo alvo.
Correção de Rótulos: As amostras do alvo são reatribuídas à classe do protótipo mais próximo (menor distância cosseno).
Otimização Final: O modelo alvo é refinado usando esses rótulos corrigidos como pseudo-rótulos finais para um treinamento adicional, garantindo representações de características mais discriminativas e semanticamente consistentes.

3. Principais Contribuições

Fusão Adaptativa de Professores: Um mecanismo inovador que integra dinamicamente o conhecimento específico do modelo de caixa-preta e a semântica geral do CLIP, ajustando os pesos com base na incerteza e no tamanho do conjunto de dados alvo.
Estratégia de Retificação por Subrede: Uma técnica de regularização que utiliza uma subrede para mitigar o overfitting a rótulos ruidosos, alinhando saídas e forçando divergência de gradientes controlada.
Refinamento Iterativo: O uso de auto-distilação para melhorar os pseudo-rótulos e prompts do CLIP durante o treinamento, seguido por uma etapa final de correção baseada em protótipos.
Desempenho Superior: O método supera consistentemente os métodos mais avançados (SOTA), incluindo aqueles que têm acesso aos dados de origem ou ao modelo de origem, validando sua eficácia em cenários de privacidade rigorosa.

4. Resultados Experimentais

O DDSR foi avaliado em três benchmarks padrão: Office-31, Office-Home e VisDA-17.

Office-31: Alcançou a melhor precisão média (93,1%), superando o segundo melhor método (AEM) em 1,2% e o BBC em 3,3%.
Office-Home: Superou todos os métodos comparados em todas as tarefas, alcançando uma precisão média de 83,2% (superando o AEM em 2,6%).
VisDA-17: Obteve a maior precisão média entre todos os concorrentes, classificando-se em primeiro ou segundo lugar na maioria das tarefas.
Análise Visual: Visualizações t-SNE mostraram que o DDSR produz clusters de características bem separados no domínio alvo, mitigando efetivamente o deslocamento de domínio em comparação com o modelo de origem bruto.
Estudos de Ablação: Confirmaram que cada componente (fusão adaptativa, subrede, perda de maximização de informação e correção de protótipos) contribui significativamente para o desempenho final.

5. Significado e Conclusão

O trabalho é significativo porque resolve um problema prático e desafiador: como adaptar modelos de IA quando não se pode acessar os dados ou o código-fonte do modelo original (cenário comum em serviços de API comerciais e colaborações interinstitucionais com restrições de privacidade).

Viabilidade: O DDSR demonstra que é possível alcançar desempenho superior ao de métodos que usam dados de origem, apenas consultando o modelo de origem e utilizando priores semânticos de modelos Visão-Linguagem.
Inovação: A abordagem de "duplo professor" com fusão adaptativa e regularização por subrede oferece um novo paradigma para lidar com ruído em cenários de adaptação de domínio restritos.
Futuro: Os autores apontam que o trabalho atual não lida explicitamente com mudanças de categoria (novas classes no alvo não presentes na origem), o que é sugerido como direção futura.

Em resumo, o DDSR estabelece um novo estado da arte na Adaptação de Domínio de Caixa-Preta, provando que a combinação inteligente de conhecimento de modelo específico e semântica geral, com mecanismos robustos de regularização, pode superar limitações severas de privacidade e acesso a dados.