Boosting In-Context Learning in LLMs Through the Lens of Classical Supervised Learning

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um gênio da lâmpada (o Modelo de Linguagem ou LLM) que é incrivelmente inteligente, mas um pouco "confuso" quando você pede para ele fazer algo novo sem treiná-lo antes.

Você mostra para o gênio alguns exemplos de como resolver um problema (digamos, classificar se um filme é "bom" ou "ruim") e ele tenta adivinhar a resposta para novos filmes. Isso é chamado de Aprendizado em Contexto (In-Context Learning).

O problema é que esse gênio tem vícios.

Se você mostrou muitos exemplos de filmes "ruins" no início, ele tende a achar que tudo é ruim.
Se você pediu para ele classificar em 5 níveis de emoção, ele pode ficar tão confuso que começa a dizer que um filme "muito ruim" é "muito bom". Ele inverte a lógica!

As técnicas antigas de "calibração" (ajuste) eram como tentar consertar esse gênio apenas mudando o ponto de corte.

Analogia: Imagine que o gênio está jogando dardos e sempre erra o alvo, caindo 1 metro à esquerda. As técnicas antigas diziam: "Ok, vamos mover o alvo 1 metro para a direita". Isso ajuda um pouco, mas se o gênio estiver jogando dardos para trás (invertido), mover o alvo não adianta nada. Você precisa mudar a direção do braço dele.

A Solução: Calibração Supervisionada (SC)

Os autores deste paper criaram uma nova técnica chamada Calibração Supervisionada (SC). Eles olharam para o problema como se fosse uma aula de matemática clássica, mas aplicada de forma inteligente.

Aqui está como funciona, usando analogias do dia a dia:

1. O "Treinador de Fogo de Artifício" (O Problema da Direção)

Imagine que o gênio está lançando fogos de artifício. Às vezes, ele lança na direção certa, mas fraco. Às vezes, ele lança na direção errada, mas forte.

Métodos Antigos: Apenas ajustavam a altura do foguete (mudavam o "viés"). Se o foguete estivesse indo para o lado errado, eles não conseguiam consertar.
Método SC (Supervised Calibration): Eles ensinam o gênio a virar o foguete. Se o gênio está lançando para o lado errado, o SC diz: "Não, vire 180 graus e lance com mais força".
- Eles fazem isso aprendendo dois números para cada categoria: um para mover a resposta e outro para escalar (multiplicar) a resposta. Isso permite que eles "invertam" a lógica do modelo quando necessário.

2. O "Chef de Cozinha que Cozinha com o Próprio Prato" (Sem Dados Externos)

Normalmente, para treinar um modelo, você precisa de milhares de exemplos extras (dados externos). Mas no aprendizado em contexto, você só tem os poucos exemplos que o usuário forneceu.

A Mágica do SC: Eles criam um "banco de dados falso" (surrogate data) usando os próprios exemplos que já estão na conversa.
Analogia: Imagine que você tem 4 receitas de bolo na sua mesa. Para aprender a assar melhor, você pega 3 receitas, tenta assar o bolo, compara com a 4ª receita que você sabe que está certa, e ajusta sua técnica. Depois, você faz isso trocando qual receita é a "teste" e quais são as "treino". O SC faz isso automaticamente, gerando centenas de pequenos "treinos" a partir dos poucos exemplos que você já deu.

3. O "Cinto de Segurança" (Regularização)

Como o gênio é inteligente, mas os exemplos são poucos, ele pode tentar aprender coisas bobas e erradas (como decorar a cor do papel em vez de ler o texto).

Para evitar isso, o SC usa dois "cintos de segurança":
1. Invariância de Contexto: Ensina o gênio a não se importar com a ordem dos exemplos. Se você mudar a ordem dos ingredientes na receita, o bolo deve ser o mesmo. Isso torna o modelo mais estável.
2. Região de Confiança: Se o gênio já está fazendo um bom trabalho, o SC não o deixa mudar muito (para não estragar). Se ele está fazendo muito mal, o SC dá mais liberdade para ele corrigir. É como um piloto automático que só interfere quando necessário.

O Resultado na Vida Real

Os autores testaram isso em vários modelos famosos (como Llama, Mistral e Qwen) e em 9 tarefas diferentes (análise de sentimentos, notícias, etc.).

O Grande Sucesso: Em um teste difícil de classificar sentimentos (SST-5), onde os modelos antigos acertavam apenas 25% das vezes (quase como chutar), o SC conseguiu dobrar a acurácia para 44%.
Por que? Porque em alguns casos, o modelo estava tão confuso que a única solução era inverter a lógica dele (transformar "ruim" em "bom"), algo que só o SC consegue fazer.

Resumo em uma frase

O Supervised Calibration é como um treinador inteligente que não apenas ajusta a mira do modelo, mas, se necessário, vira o modelo de cabeça para baixo e o treina usando os próprios exemplos que você deu, garantindo que ele não fique confuso com a ordem das coisas e entregue a resposta certa, mesmo com poucos dados.

Each language version is independently generated for its own context, not a direct translation.

Título: Impulsionando o Aprendizado em Contexto (ICL) em LLMs através da Lente da Aprendizagem Supervisionada Clássica

1. O Problema

Os Grandes Modelos de Linguagem (LLMs) possuem uma capacidade notável de Aprendizado em Contexto (ICL), adaptando-se a novas tarefas com apenas alguns exemplos (few-shot). No entanto, as previsões desses modelos frequentemente sofrem de vieses sistemáticos (como viés de rótulo majoritário, viés de recência e viés de token comum), levando a uma performance instável em tarefas de classificação.

Embora técnicas de calibração existentes (como Calibração de Margem de Rótulo - LM) tentem mitigar esses vieses, o artigo identifica uma limitação fundamental:

Limitação das Métodos Atuais: A maioria dos métodos de calibração atua apenas deslocando a fronteira de decisão do LLM (ajustando o limiar ou o viés), mas é incapaz de alterar a orientação dessa fronteira.
Consequência: Se o LLM base estiver severamente desalinhado (ex: prever a classe errada consistentemente), apenas deslocar o limiar não é suficiente para corrigir o erro. Em casos extremos, o modelo pode permanecer com uma acurácia próxima ao acaso, mesmo após a calibração.

2. Metodologia: Calibração Supervisionada (SC)

Os autores propõem a Calibração Supervisionada (SC), um novo framework baseado em minimização de perda que trata o problema de calibração como um problema de classificação supervisionada clássica.

Principais Componentes da SC:

Transformação Afim no Espaço de Logits:
Diferente dos métodos anteriores que apenas aprendem um termo de viés (bias), a SC aprende uma transformação afim para cada classe no espaço de logits. Para uma classe $c$ , a função de calibração é:
$L_c(x) = w_c \cdot m_c(x) + b_c$
Onde:
- $m_c(x)$ são os logits originais do LLM.
- $b_c$ é o termo de viés (deslocamento).
- $w_c$ é o fator de escala.
- Inovação Crítica: O fator de escala $w_c$ permite não apenas deslocar, mas também reorientar ou inverter a fronteira de decisão. Se $w_c$ for negativo, o modelo inverte a lógica de previsão para aquela classe, corrigindo erros sistemáticos graves onde o modelo base está "ao contrário".
Geração de Dados Surrogados (Sem Dados Externos):
Para evitar a necessidade de um conjunto de dados externo para calibração (o que violaria o cenário puramente in-context), a SC utiliza uma estratégia de "Leave-Subset-Out":
1. A partir do contexto de demonstração $C_k$ (com $k$ exemplos), o método gera subconjuntos menores de contexto.
2. Usa esses subconjuntos para inferir logits sobre os exemplos restantes do contexto original (que servem como "testes" com rótulos conhecidos).
3. Cria um conjunto de dados de treinamento surrogado (logits do modelo vs. rótulos verdadeiros) diretamente do prompt.
Regularização para Estabilidade:
Para lidar com a escassez de dados e a instabilidade inerente ao ICL, a SC integra duas técnicas de regularização:
1. Regularizador de Invariância de Contexto: Penaliza variações nas previsões calibradas quando o mesmo exemplo é avaliado com diferentes sub-contextos (diferentes ordens ou combinações de exemplos). Isso força o modelo a ser robusto à composição do contexto.
2. Regularizador de Região de Confiança Direcional (Directional Trust-Region): Restringe os parâmetros aprendidos para que não se afastem excessivamente da direção original do LLM (a menos que seja estritamente necessário). Isso equilibra a correção agressiva com a confiança nas previsões originais, evitando overfitting.
Estratégia de Ensemble:
O método treina modelos de calibração para diferentes tamanhos de contexto ( $i < k$ ) e realiza uma média ponderada das previsões, agregando sinais complementares de diferentes configurações de contexto.

3. Contribuições Principais

Framework Unificado: A SC generaliza métodos existentes (como Calibração Contextual e Calibração de Lotes) como casos especiais onde o fator de escala é fixo em 1.
Capacidade de Reorientação: É o primeiro método a demonstrar a capacidade de inverter a fronteira de decisão do LLM quando necessário, resolvendo o problema de desalinhamento severo que métodos baseados apenas em viés não conseguem corrigir.
Teoria e Prática: Fornece uma intuição teórica baseada na teoria da aprendizagem supervisionada, decompondo o erro em viés de aproximação (reduzido pela flexibilidade do modelo) e erro de estimação (controlado pela regularização).
Desempenho SOTA: Demonstra resultados state-of-the-art em múltiplos modelos e datasets sem exigir dados externos.

4. Resultados Experimentais

Os autores avaliaram a SC em 9 datasets de classificação de texto (incluindo SST-2, SST-5, AG News, etc.) usando três modelos LLM distintos: Mistral-7B, Llama-2-7B e Qwen2-7B, em configurações de 4, 8 e 16 shots.

Desempenho Geral: A SC superou consistentemente todas as linhas de base (LLM bruto, CC, DC, BC) em todos os modelos e configurações.
- Ganho médio absoluto de +11.1% em Macro-F1 em relação ao LLM base.
- Ganho médio de +7.1% em relação ao melhor método de calibração concorrente (Batch Calibration).
Caso de Uso Crítico (SST-5): No dataset SST-5 (classificação de sentimento com 5 classes), onde o LLM base teve desempenho muito pobre (acurácia de ~22-25%), a SC conseguiu dobrar a performance, elevando a acurácia para 44% (no modelo Qwen, 8-shot).
- Análise: Isso foi possível porque a SC aprendeu um fator de escala negativo para certas classes, efetivamente invertendo a decisão do modelo base, algo que os métodos tradicionais não poderiam fazer.
Ablação: Estudos mostraram que a remoção do fator de escala (fixando $w_c=1$ ) reduz significativamente a performance, confirmando que a capacidade de reorientação é crucial. A combinação de regularização de invariância e trust-region também provou ser complementar e essencial para a estabilidade.

5. Significado e Impacto

Este trabalho é significativo porque muda o paradigma de como abordamos a calibração em ICL:

Do Deslocamento à Transformação: Move-se de uma visão de "ajuste fino de limiar" para uma "transformação aprendida" que pode corrigir erros estruturais do modelo.
Robustez: Oferece uma solução prática para a instabilidade do ICL, tornando os modelos mais confiáveis em cenários de poucos dados, onde a coleta de dados externos para fine-tuning é inviável.
Aplicabilidade: A metodologia é leve, não requer dados externos e pode ser aplicada a qualquer LLM de caixa preta, tornando-a altamente relevante para aplicações industriais que dependem de classificação few-shot.

Em resumo, a Calibração Supervisionada (SC) fornece uma estrutura teórica e prática robusta para corrigir vieses sistemáticos em LLMs, permitindo que eles alcancem seu potencial máximo em tarefas de classificação com poucos exemplos, especialmente em cenários onde o modelo base falha gravemente.

Boosting In-Context Learning in LLMs Through the Lens of Classical Supervised Learning

A Solução: Calibração Supervisionada (SC)

1. O "Treinador de Fogo de Artifício" (O Problema da Direção)

2. O "Chef de Cozinha que Cozinha com o Próprio Prato" (Sem Dados Externos)

3. O "Cinto de Segurança" (Regularização)

O Resultado na Vida Real

Resumo em uma frase

Título: Impulsionando o Aprendizado em Contexto (ICL) em LLMs através da Lente da Aprendizagem Supervisionada Clássica

1. O Problema

2. Metodologia: Calibração Supervisionada (SC)

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA