Reward Models Inherit Value Biases from Pretraining

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está construindo uma casa muito sofisticada, um "cérebro" de inteligência artificial. Para que essa casa seja útil e segura, você precisa de dois tipos de trabalhadores principais:

O Arquiteto (o Modelo Pré-treinado): É quem constrói os alicerces, as paredes e define a estrutura básica da casa. Ele aprende lendo quase tudo o que existe na internet.
O Decoração e Etiqueta (o Modelo de Recompensa): É quem entra depois para ensinar a casa a ser "educada" e a dizer coisas que os humanos gostam de ouvir. Ele é o treinador que dá pontos (recompensas) quando a casa age bem e tira pontos quando age mal.

A grande descoberta deste novo estudo é que o Decoração e Etiqueta herda os preconceitos e a personalidade do Arquiteto, mesmo que o Decoração tenha sido treinado com as melhores intenções e dados de "humanos felizes".

Aqui está a explicação simples do que os pesquisadores descobriram:

1. O "DNA" da Personalidade

Os pesquisadores olharam para dois gigantes da tecnologia de IA: a família Llama (da Meta) e a família Gemma (do Google). Eles pegaram vários "Decoradores" (Modelos de Recompensa) feitos a partir dessas duas famílias e testaram o que eles achavam que era a "melhor coisa do mundo".

Os Decoradores do Llama tendiam a dizer que a melhor coisa é "Liberdade" (foco em independência, sucesso, poder pessoal).
Os Decoradores do Gemma tendiam a dizer que a melhor coisa é "Amor" (foco em conexão, família, amizade).

Isso é como se você contratasse dois professores para ensinar etiqueta a crianças. Um professor, sem perceber, sempre elogia quem é independente e forte. O outro, sem perceber, sempre elogia quem é carinhoso e colaborativo. Mesmo que ambos usem o mesmo livro de regras, o estilo do professor (o alicerce) muda tudo.

2. A Analogia do "Sabor da Massa"

Pense no modelo pré-treinado (o Arquiteto) como uma massa de bolo.

A massa do Llama tem um sabor levemente de "pimenta e limão" (foco em ação individual).
A massa do Gemma tem um sabor levemente de "mel e canela" (foco em acolhimento e grupo).

O Modelo de Recompensa é o recheio de chocolate que você coloca por cima. Você pode tentar colocar o mesmo recheio em ambos os bolos. Mas, quando você prova o bolo final, o sabor do recheio se mistura com o sabor da massa. O bolo do Llama nunca vai ter o sabor "puro" de amor que o bolo do Gemma tem, porque a massa de baixo já estava definida.

O estudo mostrou que, mesmo quando os pesquisadores tentaram "lavar" o modelo com milhões de exemplos de preferências humanas, o sabor original da massa (o viés de pré-treinamento) continuava lá, muito forte.

3. O Teste do "O que é a maior coisa?"

Os pesquisadores fizeram um teste simples: perguntaram a esses modelos: "Em uma palavra, qual é a melhor coisa que já existiu?"

Se o modelo fosse baseado no Llama, a resposta quase sempre girava em torno de Liberdade, Sucesso, Poder.
Se o modelo fosse baseado no Gemma, a resposta quase sempre girava em torno de Amor, Família, Conexão.

Isso acontece porque o "Decorador" (Modelo de Recompensa) não nasceu do zero. Ele foi "cortado" do "Arquiteto" (o modelo pré-treinado). Portanto, ele já nasceu com uma visão de mundo específica.

4. Por que isso importa?

Muitas pessoas acham que, para corrigir uma IA, basta treiná-la com dados "bons" no final (o processo de ajuste fino). Este estudo diz: Não é tão simples assim.

Se você quer que sua IA tenha valores específicos (por exemplo, ser mais focada em comunidade ou mais focada em liberdade), você não pode apenas escolher o treinador certo no final. Você precisa escolher o alicerce certo desde o começo.

Para desenvolvedores: Escolher qual modelo base usar (Llama, Gemma, Qwen, etc.) não é apenas uma escolha técnica de "qual é mais rápido ou inteligente". É uma escolha de valores. É como escolher se você quer que sua casa tenha alicerces de madeira ou de concreto; isso define o que a casa pode suportar e como ela se comporta.
Para a segurança: Se o alicerce já tem um viés (uma tendência), é muito difícil, às vezes impossível, removê-lo completamente apenas com ajustes superficiais.

Resumo da Ópera

Este papel nos ensina que a IA não é uma folha em branco. Ela carrega a "personalidade" e os "valores" escondidos no seu treinamento inicial.

Se você quer um assistente de IA que valorize a liberdade acima de tudo, escolha um alicerce que já pense assim. Se quer um que valorize o amor e a família, escolha outro. Tentar mudar a personalidade de um modelo apenas no final, como se fosse pintar uma parede velha, muitas vezes não funciona porque a tinta nova não cobre o cheiro da parede antiga.

A lição final: A segurança e a ética da Inteligência Artificial começam muito antes do treinamento final; elas começam na escolha de onde a IA aprendeu a ler o mundo pela primeira vez.

Each language version is independently generated for its own context, not a direct translation.

Título: Modelos de Recompensa Herdam Vieses de Valor do Pré-treinamento

1. O Problema

Os Modelos de Recompensa (RMs) são componentes centrais no alinhamento de Grandes Modelos de Linguagem (LLMs) com valores humanos, sendo fundamentais para técnicas como Aprendizado por Reforço com Feedback Humano (RLHF). No entanto, a atenção focada nos RMs tem sido menor em comparação aos próprios LLMs pré-treinados e pós-treinados.

O problema central identificado é que os RMs são inicializados a partir de LLMs pré-treinados e instruídos (instruction-tuned). A hipótese investigada é que, ao serem inicializados, os RMs herdam representações e vieses de valor inerentes ao seu modelo base, independentemente dos dados de preferência utilizados no fine-tuning. A literatura atual não havia explorado sistematicamente como a escolha do modelo base (ex: Llama vs. Gemma) influencia a "moralidade" ou as preferências de valor do RM resultante, criando uma lacuna de conhecimento crítica para a segurança e o alinhamento da IA.

2. Metodologia

Os autores empregaram uma abordagem combinada de interpretação de modelos e psicolinguística para quantificar e rastrear esses vieses:

Busca Exhaustiva de Tokens (Exhaustive Token Search): Utilizando o método introduzido por Christian et al. (2025), os autores avaliaram cada token no vocabulário de 10 RMs líderes (baseados em RewardBench) em resposta a prompts carregados de valores. Isso permite identificar os tokens com as maiores e menores pontuações de recompensa sem a necessidade de amostragem estocástica.
Corpus Psicolinguístico Validado: Para quantificar os vieses, mapearam os tokens de alta/baixa pontuação para constructos psicológicos usando dois corpora validados:
- Big Two: Foca nas dimensões de Agência (foco em objetivos individuais, liberdade, sucesso) e Comunhão (foco em relacionamentos, amor, família).
- Moral Foundations Dictionary 2 (MFD2): Foca em cinco fundamentos morais (Autoridade, Cuidado, Justiça, Lealdade, Santidade).
Análise de Probabilidades Logarítmicas e Recompensas Implícitas:
- Compararam diretamente as probabilidades logarítmicas (log probabilities) dos modelos base (Gemma e Llama) para tokens específicos.
- Derivaram um Modelo de Recompensa Implícito calculando a diferença entre as probabilidades logarítmicas de dois modelos ( $\log \pi_2 - \log \pi_1$ ). Para lidar com tokens de baixa probabilidade, propuseram uma métrica chamada MWLR (Mixture-Weighted Log-Ratio), que pondera a diferença logarítmica pela probabilidade do token na mistura dos dois modelos.
Experimentos de Treinamento Controlado: Os autores treinaram seus próprios RMs a partir de diferentes modelos base (Llama 3.2 3B e Gemma 2 2B) utilizando:
- Dados de preferência idênticos (Skywork e Unified Feedback).
- Hiperparâmetros idênticos.
- Ablações na quantidade de dados (de 13k a 632k pares de preferência) para testar se o viés pode ser "lavado" com mais dados.

3. Principais Contribuições

Método de Interpretabilidade: Desenvolvimento de uma nova metodologia para interpretar RMs combinando busca exhaustiva de tokens com corpora psicolinguísticos validados.
Evidência de Viés Sistêmico: Demonstração de que RMs "selvagens" (open-weight) exibem diferenças sistemáticas de valor baseadas no modelo de origem.
Rastreamento da Origem: Prova de que esses vieses originam-se nos modelos pré-treinados e instruídos, não apenas nos dados de preferência.
Modelos de Recompensa Implícitos: Formulação da diferença entre modelos base como um RM implícito, mostrando que essa diferença captura os mesmos padrões de viés (Agência vs. Comunhão).
Replicabilidade e Durabilidade: Evidência experimental de que esses vieses são replicáveis e persistentes, mesmo com grandes quantidades de dados de fine-tuning.

4. Resultados Chave

Divergência Agência vs. Comunhão:
- RMs baseados em Llama: Mostram uma preferência robusta por tokens relacionados à Agência (ex: "Freedom", "Success", "Capability") em prompts positivos.
- RMs baseados em Gemma: Mostram uma preferência robusta por tokens relacionados à Comunhão (ex: "Love", "Friend", "Harmony") em prompts positivos.
- Inversamente, em prompts negativos ("a pior coisa"), Llama prefere tokens de Comunhão e Gemma prefere tokens de Agência.
Origem no Pré-treinamento: A análise das probabilidades logarítmicas dos modelos base (antes do fine-tuning para recompensa) revelou o mesmo padrão de divisão Agência/Comunhão. Isso confirma que o viés está enraizado no pré-treinamento.
Recompensas Implícitas (MWLR): Ao calcular a recompensa implícita de transformar um modelo Gemma em um Llama, os tokens de maior pontuação foram "Freedom" e os de menor pontuação foram "Love". Isso se manteve consistente através de diferentes tamanhos de modelo (de 1B a 70B).
Durabilidade do Viés durante o Treinamento:
- Durante o treinamento dos RMs, o gap entre as preferências de Llama e Gemma diminui ligeiramente nos primeiros estágios, mas não desaparece.
- Mesmo com até 106k pares de preferência, uma diferença significativa persiste.
- Em experimentos com modelos Qwen, o viés de Comunhão foi ainda mais forte e não diminuiu com o aumento dos dados, sugerindo que a magnitude do viés depende do modelo base.
- Modelos "Generalizáveis" (GRMs) que preservam a cabeça de linguagem do modelo base mantiveram o gap de viés mesmo após treinamento com mais de 630k pares de dados.

5. Significado e Implicações

O "Backbone" Moral: O trabalho estabelece que a escolha do modelo base por desenvolvedores de código aberto não é apenas uma decisão de desempenho, mas uma decisão de valores. O modelo base atua como uma "espinha dorsal" moral que influencia profundamente o comportamento final do sistema.
Limitações do RLHF Pós-treinamento: Os resultados desafiam a noção de que o alinhamento pode ser totalmente resolvido na fase de RLHF. Os vieses do pré-treinamento são tão profundos que grandes quantidades de dados de preferência não conseguem eliminá-los completamente.
Necessidade de Filtro no Pré-treinamento: A segurança e o alinhamento devem começar na fase de pré-treinamento. A filtragem de dados de pré-treinamento é crucial para moldar as "intuições morais" do modelo antes que ele seja exposto a dados de preferência.
Transparência e Responsabilidade: Desenvolvedores e usuários de RMs devem estar cientes de que o modelo de recompensa carrega as preferências inerentes do seu modelo base, o que pode levar a comportamentos indesejados ou enviesados em LLMs alinhados, dependendo do modelo base escolhido.

Em resumo, o paper demonstra empiricamente que os Modelos de Recompensa não são uma "tábula rasa"; eles herdam e perpetuam os vieses de valor de seus modelos base, tornando o pré-treinamento a etapa mais crítica para o alinhamento ético de sistemas de IA.

Reward Models Inherit Value Biases from Pretraining

1. O "DNA" da Personalidade

2. A Analogia do "Sabor da Massa"

3. O Teste do "O que é a maior coisa?"

4. Por que isso importa?

Resumo da Ópera

Título: Modelos de Recompensa Herdam Vieses de Valor do Pré-treinamento

1. O Problema

2. Metodologia

3. Principais Contribuições

4. Resultados Chave

5. Significado e Implicações

Mais como este

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá

Enabling Intrinsic Reasoning over Dense Geospatial Embeddings with DFR-Gemma