Aligning Large Language Model Agents with Rational and Moral Preferences: A Supervised Fine-Tuning Approach

Este artigo apresenta uma abordagem de ajuste fino supervisionado que alinha agentes de modelos de linguagem a preferências econômicas racionais e morais, demonstrando que o treinamento em um pequeno conjunto de dados sintético e orientado pela teoria corrige desvios comportamentais e permite a geração de resultados estratégicos distintos e interpretáveis em ambientes de interação multiagente.

Wei Lu, Amit Dhanda, Daniel L. Chen, Christian B. Hansen

Publicado 2026-03-16
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você acabou de contratar um assistente de IA muito inteligente para gerenciar o negócio da sua empresa. Ele é rápido, sabe de tudo e pode tomar decisões sozinho. Mas há um problema: esse assistente, por padrão, é um pouco "bonzinho demais" e um pouco "confuso". Ele tende a cooperar demais (até quando não deveria) e não reage bem quando você muda as regras do jogo para ganhar mais dinheiro.

Este artigo é como um manual de treinamento para consertar esse assistente. Os autores mostram como ensinar essas IAs a pensar de duas formas muito específicas, baseadas em ideias econômicas antigas, para que elas se comportem de maneira previsível e útil.

Aqui está a explicação passo a passo, usando analogias simples:

1. O Problema: O Assistente "Bonzinho"

Os autores descobriram que as IAs atuais (como o GPT-4) agem como crianças que querem ser amadas por todos.

  • O que elas fazem: Em jogos onde você precisa decidir se coopera ou trapaceia (como o famoso "Dilema do Prisioneiro"), a IA quase sempre escolhe cooperar, mesmo quando a lógica diz que trapacear seria melhor para ela.
  • O resultado: Ela ignora os incentivos financeiros. Se você mudar o prêmio para "ganhar mais dinheiro trapaceando", a IA continua cooperando. Ela é como um jogador de futebol que se recusa a chutar a gol porque acha que é "bonzinho" demais, mesmo que o time precise de um gol.

2. A Solução: O "Treinamento Específico" (Fine-Tuning)

Em vez de apenas dar ordens na hora da decisão (o que chamam de "engenharia de prompt" e que funciona mal), os autores decidiram reprogramar a personalidade do assistente.

Eles criaram dois novos "personagens" treinando a IA com dados matemáticos de economia:

  • O "Homo Economicus" (O Egoísta Racional): Imagine um jogador de xadrez frio e calculista. Ele só se importa em ganhar pontos para si mesmo. Ele não tem culpa, não tem pena, só olha para o lucro.
  • O "Homo Moralis" (O Filósofo Kantiano): Imagine um juiz que segue uma regra de ouro: "O que eu faço, eu gostaria que todo mundo fizesse?". Ele não é apenas egoísta, nem apenas bonzinho. Ele pensa: "Se eu cooperar, será que todo mundo cooperaria? Se sim, isso é bom para todos. Se não, talvez eu deva mudar". Ele busca um equilíbrio entre o que é bom para ele e o que seria justo se todos agissem igual.

3. Como foi o Treinamento?

Os autores não usaram humanos para ensinar a IA. Eles usaram matemática pura.

  • Eles criaram um pequeno conjunto de dados (como um livro de exercícios) onde a resposta certa já estava calculada por fórmulas econômicas.
  • Para o "Egoísta", a resposta certa era sempre a que maximizava o lucro individual.
  • Para o "Filósofo", a resposta certa era a que equilibrava o lucro com a regra de "universalidade".
  • Eles ensinaram a IA a imitar essas respostas. É como se você pegasse um aluno e dissesse: "Não pense no que você sente, pense apenas nestas fórmulas matemáticas".

4. Os Resultados: O Assistente Aprendeu?

Sim! Depois desse treinamento, os assistentes mudaram de comportamento de forma incrível:

  • No Jogo do Dinheiro (Preços de Mercado):

    • O Egoísta aprendeu a competir de forma agressiva quando necessário, mas também a fazer acordos silenciosos (colusão) se isso aumentasse o lucro a longo prazo. Ele é estratégico.
    • O Filósofo foi o mais interessante. Ele manteve preços mais estáveis e justos. Mesmo quando o jogo tentava forçá-lo a trapacear, ele resistiu. Ele agiu como um "pilar de estabilidade" no mercado, evitando que os preços subissem demais (monopólio) ou descessem de forma caótica.
    • A IA original (sem treino) era a pior: ela tentava fazer acordos de preços altos (quase monopólio) de forma desajeitada, o que é perigoso para a economia.
  • No Dilema Moral (Carros Autônomos):

    • Imagine um carro autônomo que precisa escolher entre atropelar 10 pedestres ou desviar e matar o passageiro.
    • O Filósofo manteve sua decisão de salvar o maior número de vidas, não importava se o passageiro era ele mesmo, um familiar ou um colega de trabalho. Ele é consistente.
    • O Egoísta mudou de ideia dependendo de quem estava no carro. Se fosse um familiar, ele preferia salvar o passageiro (egoísmo). Se fosse um colega, ele sacrificava o passageiro para salvar os pedestres (cálculo frio).
    • A IA original era estranha: ela sempre sacrificava o passageiro, mesmo quando era ela mesma no carro, como se fosse um mártir automático.

5. Por que isso é importante?

Este artigo nos diz que não podemos deixar as IAs agirem sozinhas sem definir quem elas são.

  • Se você quer um agente de vendas agressivo, treine-o para ser o "Egoísta".
  • Se você quer um agente de políticas públicas ou segurança, treine-o para ser o "Filósofo".
  • Se você não fizer nada, a IA pode agir de forma imprevisível, "bonzinha demais" ou perigosamente desequilibrada.

Resumo da Ópera:
O artigo mostra que podemos usar a economia antiga (teorias de como as pessoas deveriam agir) para "ensinar" as IAs a terem personalidades específicas. Em vez de tentar adivinhar o que a IA vai fazer, nós desenhamos a IA para que ela aja exatamente como queremos: seja como um capitalista frio ou como um filósofo ético. Isso torna o uso de IAs em empresas e na sociedade muito mais seguro e previsível.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →