Aligning Language Models from User Interactions

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um assistente pessoal muito inteligente, mas um pouco teimoso. Você pede algo, ele responde, e às vezes você pensa: "Ei, isso não é bem o que eu queria" ou "Você errou aqui". Normalmente, você apenas reescreve o pedido ou pede para ele corrigir, e o assistente faz a correção na hora. Mas, depois que a conversa acaba, essa lição aprendida no momento é esquecida. O assistente não "guarda" essa experiência para o futuro.

Este artigo apresenta uma ideia brilhante para mudar isso: ensinar o assistente a aprender sozinho com as conversas do dia a dia, sem precisar de professores humanos ou notas.

Aqui está a explicação, usando analogias simples:

1. O Problema: O "Ouro" que é Jogado no Lixo

Todos os dias, milhões de pessoas conversam com IAs. Essas conversas são cheias de sinais:

"Isso está errado, tente de novo."
"Eu queria algo mais engraçado."
"Você esqueceu de seguir a regra X."

Hoje, quando o modelo vê essa mensagem de correção, ele se ajusta na hora (graças à sua capacidade de aprender no contexto), mas, assim que a conversa termina, ele volta ao normal. É como se um aluno lesse um livro, entendesse tudo, mas esquecesse o conteúdo assim que fechasse a capa. O papel (a conversa) é jogado fora.

2. A Solução: O "Espelho do Futuro" (Self-Distillation)

Os autores criaram um método chamado SDPO (Otimização de Política por Auto-Distilação). A ideia central é usar o próprio modelo como seu próprio professor, mas de um jeito especial:

O Cenário: O modelo gera uma resposta (A). O usuário responde com uma correção ou sugestão (B).
O Truque: O modelo olha para a resposta (A) e para a correção do usuário (B) e pergunta a si mesmo: "Se eu soubesse que o usuário ia me corrigir assim, como eu teria respondido na primeira vez?"
A Lição: O modelo compara a resposta original (que ele deu sem saber da correção) com a resposta "ideal" (que ele daria se soubesse do futuro).
O Aprendizado: Ele descobre quais palavras da resposta original foram "ruins" (porque a correção do usuário mostrou isso) e quais foram "boas". Ele então ajusta seu cérebro para fazer mais coisas boas e menos coisas ruins no futuro.

A Analogia do Espelho:
Imagine que você está dançando e erra um passo. Seu amigo grita: "Não foi assim!".

Método Antigo: Você corrige o passo na hora, mas na próxima dança, você erra de novo porque não gravou a lição.
Método SDPO: Você para, olha para o espelho, imagina como teria dançado se soubesse que seu amigo ia gritar, e reaprende a coreografia inteira para nunca mais errar aquele passo. Você está "distilando" a sabedoria do futuro para o presente.

3. Os Resultados: Melhora sem Esforço Extra

Os pesquisadores testaram isso com conversas reais de milhares de usuários (do banco de dados WildChat).

O que aconteceu? O modelo ficou muito melhor em seguir instruções, ser útil e seguir regras.
O incrível: Ele melhorou sem perder outras habilidades. Às vezes, quando ensinamos algo novo a uma IA, ela esquece coisas antigas (como matemática ou codificação). Aqui, o modelo aprendeu a ser mais alinhado com os humanos sem "esquecer" como resolver problemas complexos.
Personalização: Se um usuário prefere respostas curtas e diretas, o modelo aprende isso rapidamente após poucas conversas, adaptando-se ao estilo daquela pessoa específica, sem precisar de um formulário de avaliação.

4. Por que isso é revolucionário?

Geralmente, para treinar uma IA, precisamos de:

Milhares de humanos escrevendo exemplos perfeitos.
Ou humanos comparando respostas e dizendo "esta é melhor que aquela".

Isso é caro e lento. O SDPO diz: "Não precisamos disso. As conversas reais já contêm todas as respostas." Se o usuário não está feliz, ele vai reclamar ou pedir mudança. O modelo só precisa aprender a ler essas reclamações como lições de ouro.

Resumo em uma frase

O papel propõe que a IA pare de tratar as conversas com humanos como "lixo" e comece a usá-las como um espelho mágico: olhando para o que o usuário disse depois da resposta para entender como deveria ter respondido antes, aprendendo assim a ser mais inteligente, útil e personalizado a cada interação, sem precisar de um professor humano.

Each language version is independently generated for its own context, not a direct translation.

Título: Aligning Language Models from User Interactions

Autores: Thomas Kleine Buening, Jonas Hübotter, Barna Pásztor, Idan Shenfeld, Giorgia Ramponi, Andreas Krause.
Afiliações: ETH Zurich, MIT, University of Zurich.

1. O Problema

Atualmente, a inferência de modelos de linguagem (LLMs) consome mais recursos computacionais do que o treinamento, gerando volumes massivos de dados de interação com usuários diariamente. No entanto, essas interações são tipicamente descartadas após o uso, representando uma oportunidade perdida de aprendizado.

Desafio Principal: Diferente de conjuntos de dados padrão (que possuem rótulos explícitos, demonstrações de especialistas ou comparações de preferência), as interações reais não possuem feedback explícito. O feedback é implícito e expresso através de mensagens subsequentes do usuário (ex: "corrija isso", "está errado", "mude o tom").
Limitação Atual: Não existem métodos eficazes e escaláveis para aprender diretamente dessas conversas naturais sem depender de anotações manuais, modelos de recompensa externos ou recompensas explícitas.
Oportunidade: Observa-se que os LLMs já possuem a capacidade de aprendizado em contexto (in-context learning). Quando um usuário fornece um follow-up (ex: relatando um erro), o modelo consegue, no mesmo contexto, revisar seu comportamento e corrigir a resposta. O artigo propõe capitalizar essa capacidade intrínseca para o treinamento.

2. Metodologia: SDPO (Self-Distillation Policy Optimization)

Os autores propõem o SDPO, um método de otimização de política baseado em auto-distilação que aprende diretamente das interações do usuário.

Conceito Central: Visão "Hindsight" (De Trás para Frente)

A ideia fundamental é que, após observar a mensagem de follow-up do usuário ( $o$ ), o modelo possui informações que não tinha quando gerou a resposta original ( $y$ ). Portanto, a distribuição de probabilidade do modelo condicionada ao histórico ( $x$ ) e ao follow-up ( $o$ ) representa uma versão "mais alinhada" ou "corrigida" do que a distribuição original.

O Algoritmo

O processo funciona da seguinte forma para uma interação $(x, y, o)$ , onde $x$ é o histórico, $y$ é a resposta do modelo e $o$ é a resposta do usuário:

Geração Original: O modelo $\pi_\theta$ gera $y$ dado $x$ .
Geração Hindsight (Re-prompting): O mesmo modelo é re-promptado com o histórico $x$ e a mensagem do usuário $o$ (tratando $o$ como contexto futuro). Isso gera uma distribuição de "hindsight" $\pi_\theta(\cdot | x, o)$ .
Cálculo do Sinal de Aprendizado (Vantagem): Compara-se a probabilidade de cada token $y_i$ $y_{i}$ na resposta original com a probabilidade desse mesmo token na distribuição de hindsight.
- A vantagem token-level é definida como:
  $A_i(x, y, o) = \log \frac{\pi_\theta(y_i | x, o, y_{<i})}{\pi_\theta(y_i | x, y_{<i})}$
- Se a probabilidade aumenta no hindsight, o token é reforçado (vantagem positiva).
- Se a probabilidade diminui (ex: o usuário reclamou de um tom informal), o token é penalizado (vantagem negativa).
Otimização (Auto-Distilação): O modelo é atualizado para minimizar a divergência KL reversa entre a política original e a política de hindsight. Isso é feito via gradiente de política, tratando a distribuição de hindsight como um "professor" fixo (com stop-gradient).

Vantagens do Método:

Não requer recompensas externas ou anotações humanas.
Funciona tanto online (durante a interação) quanto offline (em logs de conversas).
É escalável e utiliza a própria capacidade de raciocínio do modelo para gerar o sinal de aprendizado.

3. Contribuições Principais

Método de Aprendizado Direto: Introdução do SDPO, uma abordagem principled para aprender de interações brutas sem supervisão explícita.
Alinhamento Geral: Demonstração de que o treinamento em conversas reais melhora o alinhamento e a capacidade de seguir instruções.
Personalização Contínua: O método permite que modelos se adaptem continuamente a preferências individuais de usuários apenas através da interação, sem catastrophic forgetting (esquecimento catastrófico).
Interpretabilidade: O sinal de aprendizado (vantagem) é altamente interpretável, penalizando tokens específicos que causaram insatisfação e reforçando os corretos.

4. Resultados Experimentais

Os autores avaliaram o SDPO em modelos como Qwen3 (4B e 8B) e Olmo3 (7B) utilizando dados do WildChat e WildFeedback (conjuntos de dados de conversas reais do mundo real).

Alinhamento Geral (Benchmark):
- O treinamento com SDPO melhorou consistentemente o desempenho em benchmarks de alinhamento (AlpacaEval 2.0, IFEval) e tarefas difíceis (ArenaHard-v2).
- Sem Regressão: Diferente de métodos que podem degradar outras capacidades, o SDPO não causou queda significativa em tarefas de matemática, codificação ou conhecimento (MMLU-Pro), exceto em casos muito específicos de modelos menores onde houve uma troca leve (trade-off).
- Robustez: O método funcionou bem mesmo com dados totalmente não filtrados (WildChat bruto), não apenas com dados curados (WildFeedback).
Personalização:
- Em simulações de usuários com preferências específicas (ex: tom conciso vs. detalhado), o modelo adaptou-se rapidamente (atingindo >95% de taxa de vitória contra o modelo base após apenas 200 interações).
- O modelo conseguiu reverter comportamentos aprendidos quando as preferências do usuário mudaram, demonstrando adaptabilidade dinâmica.
Comparação com SFT (Fine-tuning Supervisionado):
- Um teste de sanidade mostrou que aplicar SFT padrão nas respostas do assistente (sem considerar o follow-up) degradou drasticamente o desempenho. Isso confirma que o ganho do SDPO vem do aprendizado do sinal de correção (o follow-up), e não apenas de memorizar as respostas.

5. Significado e Conclusão

O trabalho demonstra que as interações de usuários, que ocorrem naturalmente durante a implantação, são uma fonte de dados subutilizada e poderosa para o aprendizado contínuo de LLMs.

Mudança de Paradigma: Em vez de depender de conjuntos de dados estáticos e caros de anotação humana, o SDPO fecha o ciclo entre implantação e treinamento, permitindo que o modelo aprenda com sua própria experiência de uso.
Escalabilidade: Como o método não requer recompensas externas, ele é aplicável em escala global a qualquer modelo em produção.
Segurança e Ética: Os autores alertam que, embora o método seja robusto a ruídos, o aprendizado direto de interações exige cuidados com segurança, pois usuários mal-intencionados poderiam tentar "jailbreakar" o modelo através de feedback implícito. No entanto, o mecanismo de "hindsight" oferece uma base para interpretar e filtrar esses sinais.

Em resumo, o SDPO oferece uma via prática e eficiente para transformar o vasto fluxo de conversas do mundo real em melhorias tangíveis para a capacidade de alinhamento, instrução e personalização de modelos de linguagem.