Adaptive Batch-Wise Sample Scheduling for Direct Preference Optimization

Este trabalho apresenta o SamS, um algoritmo eficiente que otimiza o alinhamento de modelos de linguagem com preferências humanas através da seleção adaptativa de amostras por lote durante o processo de Otimização Direta de Preferência (DPO), melhorando significativamente o desempenho sem alterar o algoritmo central ou adicionar custos computacionais substanciais.

Zixuan Huang, Yikun Ban, Lean Fu, Xiaojie Li, Zhongxiang Dai, Jianxin Li, Deqing Wang

Publicado 2026-03-10
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está treinando um assistente virtual muito inteligente (uma Inteligência Artificial) para ser útil, educado e agradável. Para isso, você precisa mostrar a ele milhares de exemplos de conversas: "Esta resposta é boa, aquela é ruim".

O problema é que, às vezes, os exemplos que você tem são confusos, ruins ou simplesmente não servem para o momento atual do aprendizado do assistente. É como tentar ensinar alguém a dirigir em uma pista de corrida quando ele ainda está aprendendo a virar o volante: o exemplo é "difícil demais" para o nível atual dele.

Aqui entra o SamS (o tema deste artigo). Vamos explicar como ele funciona usando uma analogia simples:

1. O Problema: O Treinador Cego

Atualmente, métodos comuns de treinar IAs (chamados de DPO) funcionam como um treinador que joga uma pilha enorme de exercícios para o aluno, um por um, sem olhar se o aluno está pronto para aquele exercício específico.

  • Se o aluno está começando, o treinador pode dar um problema de cálculo avançado (o aluno se frustra).
  • Se o aluno já é avançado, o treinador pode dar um problema de somar 1+1 (o aluno fica entediado).
  • Pior ainda: às vezes, o livro de exercícios tem erros de digitação (dados "ruídosos"). O aluno tenta aprender com o erro e fica confuso.

O resultado? O aluno demora para aprender, aprende coisas erradas ou desiste.

2. A Solução: O "Agente de Agendamento" (SamS)

Os autores criaram um novo sistema chamado SamS. Pense nele como um Agente de Agendamento Inteligente que fica entre o livro de exercícios e o aluno.

O SamS não muda a forma como o aluno aprende (o método de treino), mas ele escolhe quais exercícios o aluno vai fazer a cada momento.

Como ele faz isso?

  • Ele lê a "mente" do aluno: O SamS observa o estado interno do modelo de IA. Ele sabe se o aluno está confuso, se já dominou um tópico ou se está prestes a cometer um erro.
  • Ele escolhe os melhores exemplos:
    • Se o aluno está aprendendo rápido, o SamS pega exercícios um pouco mais difíceis para desafiar.
    • Se o aluno está travado, o SamS pega exercícios que ajudam a destravar.
    • Se ele vê um exercício com erro (ruído), ele ignora aquele exercício e não deixa o aluno gastar tempo nele.

3. A Analogia do "Cardápio Personalizado"

Imagine um restaurante onde o cozinheiro (a IA) está aprendendo a fazer pratos.

  • O método antigo: O gerente joga 100 receitas na mesa do cozinheiro de uma vez. Ele tenta fazer todas. Algumas são fáceis, outras impossíveis, e algumas têm ingredientes estranhos que estragam o prato.
  • O método SamS: O gerente tem um "Sommelier de Receitas". Ele olha para o cozinheiro.
    • "Hoje você está cansado? Vamos fazer só 3 pratos fáceis para você ganhar confiança."
    • "Hoje você está afiado? Vamos tentar 3 pratos complexos para você evoluir."
    • "Essa receita aqui diz 'adicionar sal' mas deveria ser 'adicionar açúcar'. Não use essa, vai estragar tudo."

O cozinheiro aprende mais rápido, com menos esforço e com menos erros.

4. Por que isso é revolucionário?

O artigo mostra que, ao usar o SamS:

  1. A IA fica melhor: Ela aprende a conversar de forma mais natural e segura.
  2. É mais rápido: Como ela não perde tempo com exercícios ruins ou fáceis demais, o treinamento é mais eficiente.
  3. É mais barato: O sistema é leve. Ele não precisa de computadores gigantes extras; ele apenas "filtra" o que já existe.
  4. Resiste a erros: Mesmo que o livro de exercícios tenha muitas respostas erradas (ruído), o SamS consegue filtrar o lixo e focar no que é bom, protegendo o aprendizado da IA.

Resumo em uma frase

O SamS é como um tutor pessoal superinteligente que observa o aluno (a IA) em tempo real e escolhe exatamente quais exemplos de treino usar a cada segundo, garantindo que o aprendizado seja sempre no nível perfeito: nem muito fácil, nem muito difícil, e sem erros.

Isso permite que as IAs se tornem mais humanas e úteis, mesmo quando os dados de treinamento não são perfeitos.