Prototype Perturbation for Relaxing Alignment Constraints in Backward-Compatible Learning

Este artigo propõe uma abordagem de Aprendizado Compatível com o Passado (BCL) que relaxa as restrições de alinhamento estritas ao introduzir perturbações nos protótipos de características antigas, preservando assim a capacidade discriminativa do novo modelo sem a necessidade de um processo computacionalmente custoso de recálculo de embeddings.

Zikun Zhou, Yushuai Sun, Wenjie Pei, Xin Li, Yaowei Wang

Publicado 2026-03-10
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma biblioteca gigante de fotos (o "banco de dados" ou gallery) onde cada foto tem um "cartão de identidade" digital (chamado de embedding). Quando você tira uma foto de um monumento, o sistema usa esse cartão para encontrar a foto mais parecida na biblioteca.

O problema surge quando você decide melhorar o sistema (treinar um novo modelo mais inteligente). Se você fizer isso do jeito tradicional, teria que pegar todas as milhões de fotos da biblioteca e recriar os cartões de identidade delas do zero. Isso seria como reescrever a biografia de todos os livros da biblioteca porque você comprou uma nova caneta: demorado, caro e impossível de fazer em tempo real.

Para evitar isso, os cientistas criaram o Aprendizado Compatível com o Passado (BCL). A ideia é treinar o novo sistema para que ele "fale a mesma língua" do antigo, sem precisar reescrever os cartões antigos.

O Problema: A "Amizade Forçada"

O problema é que, para garantir essa compatibilidade, o novo sistema é obrigado a seguir regras rígidas: "Sua nova foto do Coliseu deve ficar exatamente no mesmo lugar do espaço digital que a foto antiga do Coliseu ocupava."

Isso funciona bem, até que você percebe que, no sistema antigo, algumas fotos de lugares diferentes (digamos, o Coliseu e o Panteão) estavam muito, muito perto uma da outra. Elas eram quase indistinguíveis.

Se o novo sistema for obrigado a seguir as regras do antigo, ele também vai colocar o Coliseu e o Panteão muito perto um do outro. O resultado? O novo sistema fica confuso e não consegue mais diferenciar os lugares, mesmo sendo mais inteligente. É como se você fosse forçado a sentar ao lado de um estranho que se parece exatamente com seu irmão, mesmo que você saiba que são pessoas diferentes.

A Solução: "Perturbação de Protótipos" (O Empurrãozinho Mágico)

Os autores deste paper propõem uma solução criativa: perturbar os protótipos.

Pense nos "protótipos" como o centro de gravidade de cada grupo de fotos (o "ponto médio" de todas as fotos do Coliseu, por exemplo).

A ideia é: antes de ensinar o novo sistema a seguir o antigo, vamos dar um pequeno empurrão nesses pontos centrais antigos.

  • Se o "centro" do Coliseu e o "centro" do Panteão estão muito perto, vamos empurrá-los um pouco para longe, criando um espaço falso (pseudo-antigo) onde eles já estão separados.
  • O novo sistema é então treinado para se alinhar a esse "espaço falso" e não ao "espaço real" confuso do antigo.

A Analogia do Salão de Baile:
Imagine que o sistema antigo é um salão de baile onde dois casais de dançarinos (classes diferentes) estão colados um no outro, quase trocando de lugar.

  • O jeito antigo (BCL rígido): O novo dançarino é obrigado a copiar exatamente a posição deles, então ele também fica colado e confuso.
  • O jeito novo (Perturbação): O maestro (o algoritmo) dá um leve empurrão nos casais antigos, separando-os um pouco no salão. Agora, o novo dançarino aprende a dançar em relação a essa nova posição separada. O resultado? O novo dançarino consegue distinguir perfeitamente os casais, mas ainda consegue interagir com os antigos sem precisar mudar todo o salão.

Como eles fazem isso? (Dois Métodos)

Os autores criaram duas formas de calcular esse "empurrão":

  1. NDPP (Empurrão por Vizinhança): É como olhar ao redor. Se o seu vizinho (uma classe parecida) está muito perto, o sistema calcula uma força de repulsão baseada na distância e na semelhança entre vocês. É um cálculo rápido e direto, baseado no que está "perto" no momento.
  2. ODPP (Empurrão por Otimização): É como um maestro de orquestra que analisa toda a sala. Ele calcula matematicamente o melhor empurrão para separar todos os grupos ao mesmo tempo, garantindo que ninguém fique colado. É mais preciso, mas exige mais trabalho de cálculo (é mais lento).

O Resultado

Ao fazer isso, o novo sistema consegue:

  1. Ser compatível: Ainda consegue ler os cartões de identidade antigos sem precisar reescrever tudo.
  2. Ser inteligente: Consegue distinguir coisas que o sistema antigo confundia, porque aprendeu em um "espaço" onde essas coisas já estavam separadas.

Em resumo, a técnica é como reorganizar a mobília de uma sala antes de convidar um novo hóspede. Em vez de forçar o hóspede a viver em um quarto bagunçado e apertado (onde ele não consegue se orientar), você move os móveis um pouco para criar espaço, permitindo que ele se adapte facilmente, mas sem precisar reformar a casa inteira.

Os testes mostraram que essa técnica funciona muito melhor do que os métodos atuais, tanto para encontrar fotos de lugares famosos quanto para identificar roupas ou pessoas em vídeos.