Aligning Language Models from User Interactions

Este artigo propõe um método escalável de auto-distilação que alinha e personaliza modelos de linguagem, aprendendo diretamente de interações reais de usuários para corrigir respostas e adaptar-se a preferências individuais sem feedback explícito.

Thomas Kleine Buening, Jonas Hübotter, Barna Pásztor, Idan Shenfeld, Giorgia Ramponi, Andreas Krause

Publicado 2026-03-16
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um assistente pessoal muito inteligente, mas um pouco teimoso. Você pede algo, ele responde, e às vezes você pensa: "Ei, isso não é bem o que eu queria" ou "Você errou aqui". Normalmente, você apenas reescreve o pedido ou pede para ele corrigir, e o assistente faz a correção na hora. Mas, depois que a conversa acaba, essa lição aprendida no momento é esquecida. O assistente não "guarda" essa experiência para o futuro.

Este artigo apresenta uma ideia brilhante para mudar isso: ensinar o assistente a aprender sozinho com as conversas do dia a dia, sem precisar de professores humanos ou notas.

Aqui está a explicação, usando analogias simples:

1. O Problema: O "Ouro" que é Jogado no Lixo

Todos os dias, milhões de pessoas conversam com IAs. Essas conversas são cheias de sinais:

  • "Isso está errado, tente de novo."
  • "Eu queria algo mais engraçado."
  • "Você esqueceu de seguir a regra X."

Hoje, quando o modelo vê essa mensagem de correção, ele se ajusta na hora (graças à sua capacidade de aprender no contexto), mas, assim que a conversa termina, ele volta ao normal. É como se um aluno lesse um livro, entendesse tudo, mas esquecesse o conteúdo assim que fechasse a capa. O papel (a conversa) é jogado fora.

2. A Solução: O "Espelho do Futuro" (Self-Distillation)

Os autores criaram um método chamado SDPO (Otimização de Política por Auto-Distilação). A ideia central é usar o próprio modelo como seu próprio professor, mas de um jeito especial:

  • O Cenário: O modelo gera uma resposta (A). O usuário responde com uma correção ou sugestão (B).
  • O Truque: O modelo olha para a resposta (A) e para a correção do usuário (B) e pergunta a si mesmo: "Se eu soubesse que o usuário ia me corrigir assim, como eu teria respondido na primeira vez?"
  • A Lição: O modelo compara a resposta original (que ele deu sem saber da correção) com a resposta "ideal" (que ele daria se soubesse do futuro).
  • O Aprendizado: Ele descobre quais palavras da resposta original foram "ruins" (porque a correção do usuário mostrou isso) e quais foram "boas". Ele então ajusta seu cérebro para fazer mais coisas boas e menos coisas ruins no futuro.

A Analogia do Espelho:
Imagine que você está dançando e erra um passo. Seu amigo grita: "Não foi assim!".

  • Método Antigo: Você corrige o passo na hora, mas na próxima dança, você erra de novo porque não gravou a lição.
  • Método SDPO: Você para, olha para o espelho, imagina como teria dançado se soubesse que seu amigo ia gritar, e reaprende a coreografia inteira para nunca mais errar aquele passo. Você está "distilando" a sabedoria do futuro para o presente.

3. Os Resultados: Melhora sem Esforço Extra

Os pesquisadores testaram isso com conversas reais de milhares de usuários (do banco de dados WildChat).

  • O que aconteceu? O modelo ficou muito melhor em seguir instruções, ser útil e seguir regras.
  • O incrível: Ele melhorou sem perder outras habilidades. Às vezes, quando ensinamos algo novo a uma IA, ela esquece coisas antigas (como matemática ou codificação). Aqui, o modelo aprendeu a ser mais alinhado com os humanos sem "esquecer" como resolver problemas complexos.
  • Personalização: Se um usuário prefere respostas curtas e diretas, o modelo aprende isso rapidamente após poucas conversas, adaptando-se ao estilo daquela pessoa específica, sem precisar de um formulário de avaliação.

4. Por que isso é revolucionário?

Geralmente, para treinar uma IA, precisamos de:

  1. Milhares de humanos escrevendo exemplos perfeitos.
  2. Ou humanos comparando respostas e dizendo "esta é melhor que aquela".

Isso é caro e lento. O SDPO diz: "Não precisamos disso. As conversas reais já contêm todas as respostas." Se o usuário não está feliz, ele vai reclamar ou pedir mudança. O modelo só precisa aprender a ler essas reclamações como lições de ouro.

Resumo em uma frase

O papel propõe que a IA pare de tratar as conversas com humanos como "lixo" e comece a usá-las como um espelho mágico: olhando para o que o usuário disse depois da resposta para entender como deveria ter respondido antes, aprendendo assim a ser mais inteligente, útil e personalizado a cada interação, sem precisar de um professor humano.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →