Beyond Binary Preferences: A Principled Framework for Reward Modeling with Ordinal Feedback

Este artigo apresenta um framework matemático principiado para modelagem de recompensas que trata preferências ordinais em escala Likert como um problema de regressão ordinal, derivando funções de perda que aprendem parâmetros de limiar diretamente dos dados e superando os métodos heurísticos existentes para alinhar modelos de linguagem com feedback humano mais granular.

Amirhossein Afsharrad, Ruida Zhou, Luca Viano, Sanjay Lall, Mohammad Ghavamzadeh

Publicado 2026-03-04
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está treinando um assistente de IA muito inteligente, mas que às vezes é um pouco "teimoso" ou não entende exatamente o que você quer. Para corrigi-lo, você precisa de um "treinador" (o modelo de recompensa) que diga ao assistente: "Isso aqui está ótimo" ou "Isso aqui está ruim".

Até agora, a maioria desses treinadores funcionava como um juiz de sim ou não. Se você mostrasse duas respostas, ele dizia apenas: "A resposta A é melhor que a B". Era um julgamento binário, preto no branco.

Mas a vida real (e a opinião humana) não é assim. Quando pedimos para alguém avaliar algo, muitas vezes dizemos: "A resposta A é muito melhor", "A resposta C é ligeiramente melhor" ou "A resposta D é quase igual". Temos uma escala de sentimentos, não apenas um "sim" ou "não".

O problema é que os métodos atuais de IA tratavam essas nuances como se fossem apenas "sim" ou "não", usando "gambiarras" (truques matemáticos) para tentar forçar a IA a entender a diferença entre "ligeiramente melhor" e "muito melhor". Isso era como tentar medir a temperatura com uma régua: não é a ferramenta certa.

A Solução Proposta: O "Mapa de Terrenos"

Os autores deste artigo propuseram uma nova maneira de fazer as coisas, baseada em uma ideia matemática chamada Regressão Ordinal. Vamos usar uma analogia para entender:

Imagine que a "qualidade" de uma resposta é como a altitude de um terreno.

  • O Modelo Antigo (Binário) tinha apenas um muro de 1 metro de altura. Se a resposta estivesse acima do muro, era "boa". Se estivesse abaixo, era "ruim". Não importava se ela estava a 1,10m ou a 100 metros de altura; para o muro, ambas eram "boas".
  • O Novo Método (Ordinal) cria um mapa de relevo com degraus. Em vez de um único muro, temos uma escada com vários degraus.
    • Degrau 1: "Péssimo"
    • Degrau 2: "Ruim"
    • Degrau 3: "Ok"
    • Degrau 4: "Bom"
    • Degrau 5: "Excelente"

A grande inovação deste trabalho é que, em vez de o pesquisador ter que desenhar a escada manualmente (decidindo onde fica cada degrau), o próprio computador aprende a construir essa escada olhando para os dados.

Como funciona na prática?

  1. A Escala de Likert: Os humanos dão notas como "Muito melhor", "Melhor", "Ligeiramente melhor". O novo método entende que essas notas formam uma sequência lógica (uma ordem), não apenas categorias soltas.
  2. Aprendizado Automático dos Degraus: O sistema aprende onde colocar os "degraus" (os limites matemáticos) que separam "ligeiramente melhor" de "muito melhor". Ele descobre sozinho: "Ah, parece que quando a diferença de qualidade é pequena, o humano marca 'ligeiramente melhor', e quando é grande, marca 'muito melhor'".
  3. Sem "Gambiarras": Antes, os cientistas tinham que adivinhar quanto "peso" dar a cada tipo de nota. Agora, o sistema calcula isso matematicamente, de forma precisa e automática.

Por que isso é importante? (As Vantagens)

  • Menos Erros Graves: Com o método antigo, se a IA errasse, ela podia errar feio, achando que uma resposta péssima era a melhor de todas (confiança cega). Com o novo método, quando a IA erra, ela tende a errar "por pouco". É como um atirador que, quando erra o alvo, erra perto da borda, e não no lado oposto do campo.
  • Entende a Intensidade: A IA aprende não apenas qual é a melhor resposta, mas quão melhor ela é. Isso é crucial para treinar IAs que precisam ser muito precisas, como em segurança ou raciocínio complexo.
  • Resistência a Ruídos: Se os humanos que dão as notas estiverem um pouco confusos ou errarem a pontuação (dizendo "muito melhor" quando era só "ligeiramente melhor"), o novo sistema é mais robusto e consegue entender o padrão geral, ignorando esses pequenos erros.

Em resumo

Este trabalho é como trocar um juiz de futebol que só apita "gol" ou "não gol" por um técnico que analisa a margem de vitória. Ele entende que ganhar por 1 a 0 é diferente de ganhar por 5 a 0.

Ao usar essa lógica matemática mais sofisticada, os autores conseguiram criar IAs que entendem melhor o que os humanos realmente querem, tornando o treinamento mais eficiente, mais seguro e menos dependente de "chutes" ou regras manuais. É um passo importante para fazer a IA se alinhar de verdade com a complexidade da opinião humana.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →