Leveraging Label Proportion Prior for Class-Imbalanced Semi-Supervised Learning

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um professor tentando ensinar uma turma de alunos sobre 10 tipos de animais diferentes. O problema é que a sua turma tem um desequilíbrio gigante: você tem 90 fotos de Gatos (a maioria), mas apenas 1 foto de Tigre e 1 de Leão (as minorias).

Para ajudar no ensino, você decide usar um "aluno monitor" (o modelo de Inteligência Artificial) para classificar as fotos de animais que ainda não têm nome (os dados não rotulados).

O Problema: O Viés do "Gato"

Na situação atual (aprendizado semi-supervisionado comum), o monitor, vendo tantas fotos de gatos, começa a achar que todo animal é um gato.

Ele vê um tigre e diz: "Isso é um gato!".
Ele vê um leão e diz: "Isso é um gato!".

Como o professor (o sistema de aprendizado) confia no monitor, ele aceita esses erros. O resultado? O monitor fica cada vez mais confiante de que "tudo é gato", e os alunos (o modelo) nunca aprendem a distinguir os animais raros. É um ciclo vicioso onde a maioria esmaga a minoria.

A Solução: O "Mapa de Proporções"

Os autores deste artigo trouxeram uma ideia brilhante de outra área de estudo (chamada Learning from Label Proportions). Eles disseram:

"E se, em vez de deixar o monitor adivinhar tudo, nós lhe mostrarmos um mapa geral que diz: 'Ei, na sala inteira, existem 10% de gatos, 5% de tigres e 5% de leões'?"

Eles criaram uma nova regra de jogo chamada Perda de Proporção (Proportion Loss).

A Analogia do Balanço

Imagine que o monitor está tentando equilibrar uma balança.

Sem a nova regra: Ele coloca 90 pesos de "Gato" e 1 de "Tigre". A balança pende totalmente para o lado do Gato.
Com a nova regra (Proporção): O professor coloca um peso invisível no lado do Tigre e diz: "Sua previsão final precisa refletir a proporção real da sala. Se você disser que 90% são gatos, mas a sala só tem 10%, você está errado. Ajuste sua previsão!"

Isso força o modelo a olhar para as fotos de animais raros com mais atenção, garantindo que ele não ignore os "Tigres" só porque há poucos deles.

O Desafio do "Grupo Pequeno" (Mini-batch)

Aqui entra uma complicação divertida. O monitor não olha para a sala inteira de uma vez; ele olha para pequenos grupos de fotos (chamados mini-batches).

Às vezes, por puro acaso, ele pega um grupo onde só tem Gatos.
Se o professor for rígido demais e disser: "Neste grupo específico, você tem que achar que há Tigres", o monitor vai ficar confuso e tentar forçar a barra, aprendendo errado.

Para resolver isso, os autores criaram uma versão estocástica (aleatória) da regra.

A Analogia da Sorte: Em vez de dizer "Neste grupo exato, deve haver 5 tigres", o professor diz: "Baseado na média da sala, é provável que haja cerca de 5 tigres neste grupo, mas pode variar um pouco. Ajuste sua previsão considerando essa chance, mas não se prenda a um número fixo."
Isso é feito usando uma distribuição matemática chamada Hipergeométrica Multivariada. Em linguagem simples: é como jogar dados para simular a sorte de qual grupo de alunos você pegou, evitando que o modelo "decore" erros específicos de um grupo pequeno.

O Resultado

Quando eles testaram isso em um banco de dados famoso (CIFAR-10, que é como um álbum de figurinhas de animais), o resultado foi incrível:

Melhorou para todos: O modelo ficou melhor em identificar tanto os animais comuns quanto os raros.
Funciona com poucos dados: Mesmo quando o professor tinha muito poucas fotos rotuladas (apenas 2% ou 4% da turma), a técnica funcionou muito bem.
Correção de Viés: O gráfico no final do artigo mostra que, antes, o modelo achava que havia 40% de "Gatos" (quando na verdade eram menos). Com a nova regra, a previsão se aproximou da realidade, e a precisão geral subiu.

Resumo em uma frase

Os autores criaram um "termômetro de equilíbrio" que impede a Inteligência Artificial de ignorar os grupos minoritários, garantindo que, mesmo com poucos exemplos, o modelo aprenda a ver a diversidade do mundo real, e não apenas o que é mais comum.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Aproveitando o Prior de Proporção de Rótulos para Aprendizado Semi-Supervisionado com Desequilíbrio de Classes

1. O Problema

O Aprendizado Semi-Supervisionado (SSL) é uma abordagem poderosa que utiliza grandes quantidades de dados não rotulados junto com um pequeno conjunto de dados rotulados. No entanto, o SSL enfrenta um desafio fundamental em cenários do mundo real onde os dados são altamente desequilibrados (imbalanced).

Viés de Maioria: Em dados desequilibrados, o classificador subjacente tende a desenvolver um viés em favor das classes majoritárias.
Amplificação de Viés: No SSL, o mecanismo de pseudo-labeling (atribuição de rótulos aos dados não rotulados) amplifica esse viés. Se o modelo prevê mal as classes minoritárias, os pseudo-rótulos gerados para esses exemplos serão incorretos, suprimindo ainda mais o desempenho das classes minoritárias e degradando a precisão geral.
Limitação das Métodos Atuais: Métodos que funcionam bem em benchmarks balanceados frequentemente sofrem uma queda significativa de desempenho quando aplicados a dados desequilibrados.

2. Metodologia Proposta

Os autores propõem um framework leve que integra informações sobre a proporção global das classes no processo de aprendizado semi-supervisionado, utilizando uma técnica derivada do Learning from Label Proportions (LLP).

A. Perda de Proporção (Proportion Loss)
O núcleo da proposta é a introdução de uma nova função de regularização chamada Proportion Loss.

Conceito: Em vez de apenas rotular instâncias individuais, o método utiliza uma estimativa da distribuição global das classes (obtida a partir do pequeno conjunto de dados rotulados) como um "prior".
Mecanismo: A perda penaliza o modelo se a distribuição de previsões dentro de um mini-batch (lote de treinamento) se desviar significativamente da proporção global estimada.
Objetivo: Alinhar as previsões do modelo com a distribuição global, mitigando o viés tanto para classes super-representadas quanto para sub-representadas.
Integração: A perda total é definida como $L = L_{ssl} + \lambda L_{prop}$ , onde $L_{ssl}$ é a perda do método SSL base (ex: FixMatch, ReMixMatch) e $\lambda$ é um hiperparâmetro de controle.

B. Variante Estocástica (Perturbação via Amostragem Hipergeométrica)
Um desafio identificado pelos autores é que impor a proporção global fixa em cada mini-batch pode levar ao overfitting, pois a composição de classes em um lote pequeno flutua aleatoriamente em torno da distribuição global.

Solução: Os autores propõem uma variante estocástica inspirada no Large-bag LLP.
Implementação: Em vez de usar a proporção global fixa ( $q$ ) como supervisão direta, a proporção supervisionada para cada iteração é amostrada de uma distribuição hipergeométrica multivariada ( $MultiHG$ ).
Benefício: Isso modela a composição esperada do lote, introduzindo perturbações dependentes da iteração que previnem que a rede memorize uma proporção fixa e ruidosa, estabilizando o treinamento sob desequilíbrios severos.

3. Contribuições Principais

Integração Inédita: É, segundo os autores, o primeiro trabalho a trazer o conceito de proporções de rótulos do domínio LLP para o cenário de SSL, utilizando-o como um termo de regularização explícito.
Simplicidade e Eficiência: O método é conceitualmente simples, não requer modificações na arquitetura da rede e pode ser integrado perfeitamente a algoritmos SSL existentes.
Robustez Estocástica: O desenvolvimento da variante baseada em distribuição hipergeométrica multivariada para lidar com flutuações de mini-batches, aumentando a robustez em cenários de desequilíbrio severo.
Validação Abrangente: Demonstração de que o método melhora consistentemente o desempenho em benchmarks desequilibrados, superando ou competindo com métodos de estado da arte (SOTA) específicos para SSL desequilibrado (CISSL).

4. Resultados Experimentais

Os experimentos foram realizados no benchmark CIFAR-10-LT (Long-Tailed), variando a severidade do desequilíbrio ( $\gamma$ ) e a quantidade de dados rotulados ( $\beta$ ).

Desempenho Geral: A integração da Proportion Loss nos algoritmos FixMatch e ReMixMatch resultou em melhorias consistentes em todas as configurações de desequilíbrio e proporções de rótulos.
Condições de Raros Rótulos: O método foi particularmente eficaz quando a quantidade de dados rotulados era escassa ( $\beta = 2\%$ e $4%$), superando métodos existentes como DARP e CReST.
Comparação com SOTA:
- No cenário $\gamma=100, \beta=20\%$ , o ReMixMatch + Ours alcançou 77.1% de acurácia, superando o ReMixMatch base (75.5%) e o ReMixMatch + DARP (77.8% - empate técnico/leve vantagem dependendo da semente, mas consistente no topo).
- Em cenários mais críticos ( $\gamma=10, \beta=2\%$ ), o método alcançou 88.1% no ReMixMatch, superando significativamente o baseline (85.5%) e o DARP (87.5%).
Análise de Distribuição: Gráficos de proporção de saída mostraram que, enquanto o FixMatch base superestima a classe majoritária e subestima as minoritárias, o método proposto corrige esse desvio, alinhando as previsões à distribuição real.
Seleção de Pseudo-rótulos: A análise de recall demonstrou que o método melhora significativamente o recall das classes minoritárias durante o treinamento, mantendo o desempenho das classes majoritárias, o que indica uma seleção de pseudo-rótulos de maior qualidade.

5. Significado e Conclusão

Este trabalho oferece uma solução elegante e eficaz para um problema persistente no SSL: a amplificação de viés em dados desequilibrados. Ao utilizar a informação global da distribuição de classes como um regularizador, o método corrige o viés de nível de classe sem a necessidade de reamostragem complexa ou arquiteturas pesadas.

A principal contribuição teórica é a ponte entre LLP e SSL, demonstrando que a supervisão agregada (proporções) pode guiar o aprendizado de instâncias individuais em regimes semi-supervisionados. A variante estocástica resolve o problema de ruído em lotes pequenos, tornando a abordagem prática para cenários reais com dados limitados.

Limitações Futuras: Os autores reconhecem que o método pode ter eficácia reduzida se as distribuições dos dados rotulados e não rotulados forem fundamentalmente diferentes (covariate shift) e que a estimativa de proporções pode ser imprecisa se o tamanho do lote de dados não rotulados for muito pequeno.

Leveraging Label Proportion Prior for Class-Imbalanced Semi-Supervised Learning

O Problema: O Viés do "Gato"

A Solução: O "Mapa de Proporções"

A Analogia do Balanço

O Desafio do "Grupo Pequeno" (Mini-batch)

O Resultado

Resumo em uma frase

Resumo Técnico: Aproveitando o Prior de Proporção de Rótulos para Aprendizado Semi-Supervisionado com Desequilíbrio de Classes

1. O Problema

2. Metodologia Proposta

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Conclusão

Mais como este

DyMRL: Dynamic Multispace Representation Learning for Multimodal Event Forecasting in Knowledge Graph

How unconstrained machine-learning models learn physical symmetries

Experiential Reflective Learning for Self-Improving LLM Agents

Learning Mesh-Free Discrete Differential Operators with Self-Supervised Graph Neural Networks

Physics-Informed Neural Network Digital Twin for Dynamic Tray-Wise Modeling of Distillation Columns under Transient Operating Conditions