Prototype Perturbation for Relaxing Alignment Constraints in Backward-Compatible Learning

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma biblioteca gigante de fotos (o "banco de dados" ou gallery) onde cada foto tem um "cartão de identidade" digital (chamado de embedding). Quando você tira uma foto de um monumento, o sistema usa esse cartão para encontrar a foto mais parecida na biblioteca.

O problema surge quando você decide melhorar o sistema (treinar um novo modelo mais inteligente). Se você fizer isso do jeito tradicional, teria que pegar todas as milhões de fotos da biblioteca e recriar os cartões de identidade delas do zero. Isso seria como reescrever a biografia de todos os livros da biblioteca porque você comprou uma nova caneta: demorado, caro e impossível de fazer em tempo real.

Para evitar isso, os cientistas criaram o Aprendizado Compatível com o Passado (BCL). A ideia é treinar o novo sistema para que ele "fale a mesma língua" do antigo, sem precisar reescrever os cartões antigos.

O Problema: A "Amizade Forçada"

O problema é que, para garantir essa compatibilidade, o novo sistema é obrigado a seguir regras rígidas: "Sua nova foto do Coliseu deve ficar exatamente no mesmo lugar do espaço digital que a foto antiga do Coliseu ocupava."

Isso funciona bem, até que você percebe que, no sistema antigo, algumas fotos de lugares diferentes (digamos, o Coliseu e o Panteão) estavam muito, muito perto uma da outra. Elas eram quase indistinguíveis.

Se o novo sistema for obrigado a seguir as regras do antigo, ele também vai colocar o Coliseu e o Panteão muito perto um do outro. O resultado? O novo sistema fica confuso e não consegue mais diferenciar os lugares, mesmo sendo mais inteligente. É como se você fosse forçado a sentar ao lado de um estranho que se parece exatamente com seu irmão, mesmo que você saiba que são pessoas diferentes.

A Solução: "Perturbação de Protótipos" (O Empurrãozinho Mágico)

Os autores deste paper propõem uma solução criativa: perturbar os protótipos.

Pense nos "protótipos" como o centro de gravidade de cada grupo de fotos (o "ponto médio" de todas as fotos do Coliseu, por exemplo).

A ideia é: antes de ensinar o novo sistema a seguir o antigo, vamos dar um pequeno empurrão nesses pontos centrais antigos.

Se o "centro" do Coliseu e o "centro" do Panteão estão muito perto, vamos empurrá-los um pouco para longe, criando um espaço falso (pseudo-antigo) onde eles já estão separados.
O novo sistema é então treinado para se alinhar a esse "espaço falso" e não ao "espaço real" confuso do antigo.

A Analogia do Salão de Baile:
Imagine que o sistema antigo é um salão de baile onde dois casais de dançarinos (classes diferentes) estão colados um no outro, quase trocando de lugar.

O jeito antigo (BCL rígido): O novo dançarino é obrigado a copiar exatamente a posição deles, então ele também fica colado e confuso.
O jeito novo (Perturbação): O maestro (o algoritmo) dá um leve empurrão nos casais antigos, separando-os um pouco no salão. Agora, o novo dançarino aprende a dançar em relação a essa nova posição separada. O resultado? O novo dançarino consegue distinguir perfeitamente os casais, mas ainda consegue interagir com os antigos sem precisar mudar todo o salão.

Como eles fazem isso? (Dois Métodos)

Os autores criaram duas formas de calcular esse "empurrão":

NDPP (Empurrão por Vizinhança): É como olhar ao redor. Se o seu vizinho (uma classe parecida) está muito perto, o sistema calcula uma força de repulsão baseada na distância e na semelhança entre vocês. É um cálculo rápido e direto, baseado no que está "perto" no momento.
ODPP (Empurrão por Otimização): É como um maestro de orquestra que analisa toda a sala. Ele calcula matematicamente o melhor empurrão para separar todos os grupos ao mesmo tempo, garantindo que ninguém fique colado. É mais preciso, mas exige mais trabalho de cálculo (é mais lento).

O Resultado

Ao fazer isso, o novo sistema consegue:

Ser compatível: Ainda consegue ler os cartões de identidade antigos sem precisar reescrever tudo.
Ser inteligente: Consegue distinguir coisas que o sistema antigo confundia, porque aprendeu em um "espaço" onde essas coisas já estavam separadas.

Em resumo, a técnica é como reorganizar a mobília de uma sala antes de convidar um novo hóspede. Em vez de forçar o hóspede a viver em um quarto bagunçado e apertado (onde ele não consegue se orientar), você move os móveis um pouco para criar espaço, permitindo que ele se adapte facilmente, mas sem precisar reformar a casa inteira.

Os testes mostraram que essa técnica funciona muito melhor do que os métodos atuais, tanto para encontrar fotos de lugares famosos quanto para identificar roupas ou pessoas em vídeos.

Each language version is independently generated for its own context, not a direct translation.

Título: Perturbação de Protótipos para Relaxar Restrições de Alinhamento em Aprendizado Compatível com o Passado

1. O Problema

No contexto de sistemas de recuperação de imagens (como busca em e-commerce ou localização de marcos), os modelos de extração de características (embeddings) precisam ser atualizados periodicamente para incorporar novos dados ou arquiteturas mais avançadas.

O Dilema do "Backfilling": O paradigma tradicional exige recalcular os embeddings de todo o banco de dados de galeria (backfilling) ao atualizar o modelo. Esse processo é computacionalmente intensivo e demorado para grandes escalas.
A Solução Existente (BCL): O Backward-Compatible Learning (BCL) foi proposto para treinar um novo modelo que seja compatível com o antigo, permitindo que as consultas do novo modelo sejam comparadas diretamente com os embeddings antigos sem recálculo.
A Limitação Crítica: A maioria dos métodos BCL existentes impõe restrições de alinhamento rígidas entre o espaço de características do novo modelo e o do antigo. Isso força o novo modelo a manter a mesma distribuição de características do modelo antigo.
- Consequência: Se classes diferentes estiverem mal separadas ou muito próximas no espaço de características do modelo antigo (devido a ruídos ou limitações do modelo anterior), o novo modelo será forçado a manter essa indistinguibilidade. Isso compromete a capacidade discriminativa do novo modelo, impedindo-o de aprender representações mais precisas e separadas.

2. Metodologia Proposta

Os autores propõem um mecanismo de Perturbação de Protótipos para relaxar essas restrições de alinhamento. Em vez de alinhar o novo modelo aos protótipos (centros de classe) reais do modelo antigo, eles alinham o novo modelo a um espaço de características "pseudo-antigo", definido por protótipos antigos que foram intencionalmente perturbados.

A ideia central é empurrar os protótipos antigos para longe de seus vizinhos indistinguíveis, criando um alvo de alinhamento mais flexível que preserva a capacidade discriminativa do novo modelo.

O artigo apresenta duas abordagens para calcular essas perturbações:

A. Perturbação de Protótipos Guiada por Vizinhos (NDPP - Neighbor-Driven Prototype Perturbation)

Mecanismo: Calcula a perturbação de forma heurística baseada na similaridade com os vizinhos.
Lógica: Assume-se que cada protótipo antigo sofre uma "repulsão" proporcional à sua similaridade com os protótipos vizinhos (tanto do modelo antigo quanto do novo).
Processo:
1. Identifica os $K$ vizinhos mais próximos de um protótipo antigo.
2. Calcula um vetor de perturbação somando as diferenças vetoriais ponderadas pela similaridade.
3. Aplica essa perturbação para criar um protótipo antigo "pseudo".
4. Utiliza esses protótipos perturbados na função de perda contrastiva (P2S - Point-to-Set) para treinar o novo modelo.
Vantagem: Baixa complexidade computacional, ideal para conjuntos de dados menores ou quando a eficiência é prioridade.

B. Perturbação de Protótipos Guiada por Otimização (ODPP - Optimization-Driven Prototype Perturbation)

Mecanismo: Aprende vetores de perturbação otimizáveis através de uma função objetivo.
Lógica: Define uma função de perda (hinge loss) que penaliza a similaridade entre pares de protótipos antigos que são difíceis de distinguir, empurrando-os para longe.
Processo:
1. Introduz vetores de perturbação aprendíveis ( $r_l$ ) para cada protótipo antigo.
2. Minimiza a similaridade entre protótipos indistinguíveis, considerando também a distribuição do novo modelo (protótipos novos).
3. Otimiza iterativamente essas perturbações no início de cada época de treinamento.
Vantagem: Encontra soluções próximas ao ótimo global ao considerar a distribuição global do espaço de características, sendo mais eficaz em conjuntos de dados massivos e complexos.

Ambos os métodos utilizam uma perda combinada: perda de classificação (Cross-Entropy) para o novo modelo e perda contrastiva baseada em protótipos perturbados para garantir a compatibilidade.

3. Contribuições Principais

Mecanismo de Perturbação de Protótipos: Propõe uma nova forma de relaxar as restrições de alinhamento no BCL, permitindo que o novo modelo melhore sua capacidade discriminativa sem perder a compatibilidade com o antigo.
Dois Novos Algoritmos: Desenvolvimento do NDPP (heurístico e eficiente) e do ODPP (baseado em otimização e robusto), ambos utilizando informações de protótipos antigos e novos para gerar perturbações adaptativas.
Desempenho Superior: Demonstração experimental de que ambas as abordagens superam os métodos state-of-the-art (como BCT, AdvBCT, UniBCT) em diversas tarefas de recuperação, mantendo a compatibilidade cruzada e melhorando a precisão auto-teste.

4. Resultados Experimentais

Os métodos foram avaliados em conjuntos de dados de marcos (GLDv2), produtos (In-Shop) e Re-ID de pessoas (Market-1501, RSTPReid), em cenários de:

Extensão de Dados: Treinar com mais classes (ex: 9% $\to$ 30% $\to$ 100% dos dados).
Extensão de Backbone: Troca de arquitetura (ex: ResNet18 $\to$ ResNet50).
Aprendizado Sequencial: Múltiplos passos de atualização de modelo.

Principais achados:

GLDv2 (Marcos): NDPP e ODPP superaram consistentemente os métodos existentes. Em cenários com muitas classes (24k+), o ODPP teve ligeira vantagem devido à sua capacidade de otimização global. Em cenários menores, o NDPP foi mais eficiente e performático.
In-Shop (Produtos): Ambos os métodos alcançaram os melhores resultados em métricas de auto-teste (discriminação) e teste cruzado (compatibilidade).
Market-1501 (Re-ID): Melhorias significativas na mAP (Mean Average Precision) tanto no teste cruzado quanto no auto-teste, superando até mesmo modelos treinados independentemente em alguns casos de compatibilidade.
Re-ID Multimodal: A técnica foi estendida com sucesso para recuperação texto-imagem (RSTPReid), mostrando generalização.
Análise de Distribuição: Visualizações (t-SNE) mostraram que, ao contrário do baseline (que agrupa classes indistinguíveis), NDPP e ODPP conseguem separar as classes no novo espaço de características, aumentando a uniformidade e a separabilidade.

5. Significado e Impacto

Este trabalho resolve um dos principais gargalos na atualização de sistemas de recuperação em larga escala: o trade-off entre compatibilidade com o passado e desempenho futuro.

Viabilidade Operacional: Elimina a necessidade de "backfilling" (recálculo massivo de embeddings), economizando recursos computacionais e tempo.
Qualidade do Modelo: Garante que a atualização do modelo não apenas mantenha a compatibilidade, mas realmente melhore a capacidade de distinguir classes que antes eram confusas.
Flexibilidade: Oferece duas opções (NDPP e ODPP) para diferentes cenários de custo computacional e complexidade de dados, tornando a solução aplicável em diversos contextos industriais.

Em resumo, a perturbação de protótipos introduz uma "camada de adaptação" inteligente que permite que novos modelos aprendam representações superiores, alinhando-se a uma versão idealizada do modelo antigo, em vez de ser limitado pelas suas falhas originais.

Prototype Perturbation for Relaxing Alignment Constraints in Backward-Compatible Learning

O Problema: A "Amizade Forçada"

A Solução: "Perturbação de Protótipos" (O Empurrãozinho Mágico)

Como eles fazem isso? (Dois Métodos)

O Resultado

Título: Perturbação de Protótipos para Relaxar Restrições de Alinhamento em Aprendizado Compatível com o Passado

1. O Problema

2. Metodologia Proposta

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers