Reward Models Inherit Value Biases from Pretraining

Este estudo demonstra que os modelos de recompensa (RMs) herdam vieses de valores humanos diretamente de seus modelos base pré-treinados, exibindo preferências distintas por "agência" ou "comunhão" dependendo da arquitetura (como Llama ou Gemma), um efeito que persiste mesmo com dados e processos de ajuste idênticos, destacando a importância crítica das escolhas de pré-treinamento para a segurança e alinhamento.

Brian Christian, Jessica A. F. Thompson, Elle Michelle Yang, Vincent Adam, Hannah Rose Kirk, Christopher Summerfield, Tsvetomira Dumbalska

Publicado 2026-03-03
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está construindo uma casa muito sofisticada, um "cérebro" de inteligência artificial. Para que essa casa seja útil e segura, você precisa de dois tipos de trabalhadores principais:

  1. O Arquiteto (o Modelo Pré-treinado): É quem constrói os alicerces, as paredes e define a estrutura básica da casa. Ele aprende lendo quase tudo o que existe na internet.
  2. O Decoração e Etiqueta (o Modelo de Recompensa): É quem entra depois para ensinar a casa a ser "educada" e a dizer coisas que os humanos gostam de ouvir. Ele é o treinador que dá pontos (recompensas) quando a casa age bem e tira pontos quando age mal.

A grande descoberta deste novo estudo é que o Decoração e Etiqueta herda os preconceitos e a personalidade do Arquiteto, mesmo que o Decoração tenha sido treinado com as melhores intenções e dados de "humanos felizes".

Aqui está a explicação simples do que os pesquisadores descobriram:

1. O "DNA" da Personalidade

Os pesquisadores olharam para dois gigantes da tecnologia de IA: a família Llama (da Meta) e a família Gemma (do Google). Eles pegaram vários "Decoradores" (Modelos de Recompensa) feitos a partir dessas duas famílias e testaram o que eles achavam que era a "melhor coisa do mundo".

  • Os Decoradores do Llama tendiam a dizer que a melhor coisa é "Liberdade" (foco em independência, sucesso, poder pessoal).
  • Os Decoradores do Gemma tendiam a dizer que a melhor coisa é "Amor" (foco em conexão, família, amizade).

Isso é como se você contratasse dois professores para ensinar etiqueta a crianças. Um professor, sem perceber, sempre elogia quem é independente e forte. O outro, sem perceber, sempre elogia quem é carinhoso e colaborativo. Mesmo que ambos usem o mesmo livro de regras, o estilo do professor (o alicerce) muda tudo.

2. A Analogia do "Sabor da Massa"

Pense no modelo pré-treinado (o Arquiteto) como uma massa de bolo.

  • A massa do Llama tem um sabor levemente de "pimenta e limão" (foco em ação individual).
  • A massa do Gemma tem um sabor levemente de "mel e canela" (foco em acolhimento e grupo).

O Modelo de Recompensa é o recheio de chocolate que você coloca por cima. Você pode tentar colocar o mesmo recheio em ambos os bolos. Mas, quando você prova o bolo final, o sabor do recheio se mistura com o sabor da massa. O bolo do Llama nunca vai ter o sabor "puro" de amor que o bolo do Gemma tem, porque a massa de baixo já estava definida.

O estudo mostrou que, mesmo quando os pesquisadores tentaram "lavar" o modelo com milhões de exemplos de preferências humanas, o sabor original da massa (o viés de pré-treinamento) continuava lá, muito forte.

3. O Teste do "O que é a maior coisa?"

Os pesquisadores fizeram um teste simples: perguntaram a esses modelos: "Em uma palavra, qual é a melhor coisa que já existiu?"

  • Se o modelo fosse baseado no Llama, a resposta quase sempre girava em torno de Liberdade, Sucesso, Poder.
  • Se o modelo fosse baseado no Gemma, a resposta quase sempre girava em torno de Amor, Família, Conexão.

Isso acontece porque o "Decorador" (Modelo de Recompensa) não nasceu do zero. Ele foi "cortado" do "Arquiteto" (o modelo pré-treinado). Portanto, ele já nasceu com uma visão de mundo específica.

4. Por que isso importa?

Muitas pessoas acham que, para corrigir uma IA, basta treiná-la com dados "bons" no final (o processo de ajuste fino). Este estudo diz: Não é tão simples assim.

Se você quer que sua IA tenha valores específicos (por exemplo, ser mais focada em comunidade ou mais focada em liberdade), você não pode apenas escolher o treinador certo no final. Você precisa escolher o alicerce certo desde o começo.

  • Para desenvolvedores: Escolher qual modelo base usar (Llama, Gemma, Qwen, etc.) não é apenas uma escolha técnica de "qual é mais rápido ou inteligente". É uma escolha de valores. É como escolher se você quer que sua casa tenha alicerces de madeira ou de concreto; isso define o que a casa pode suportar e como ela se comporta.
  • Para a segurança: Se o alicerce já tem um viés (uma tendência), é muito difícil, às vezes impossível, removê-lo completamente apenas com ajustes superficiais.

Resumo da Ópera

Este papel nos ensina que a IA não é uma folha em branco. Ela carrega a "personalidade" e os "valores" escondidos no seu treinamento inicial.

Se você quer um assistente de IA que valorize a liberdade acima de tudo, escolha um alicerce que já pense assim. Se quer um que valorize o amor e a família, escolha outro. Tentar mudar a personalidade de um modelo apenas no final, como se fosse pintar uma parede velha, muitas vezes não funciona porque a tinta nova não cobre o cheiro da parede antiga.

A lição final: A segurança e a ética da Inteligência Artificial começam muito antes do treinamento final; elas começam na escolha de onde a IA aprendeu a ler o mundo pela primeira vez.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →