Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy

O artigo apresenta o Skywork-Reward-V2, uma série de modelos de recompensa de código aberto que alcançam desempenho state-of-the-art em diversos benchmarks ao serem treinados no conjunto de dados SynPref-40M, criado por meio de um pipeline de curadoria em duas etapas que combina a qualidade da anotação humana com a escalabilidade da inteligência artificial.

Chris Yuhao Liu, Liang Zeng, Yuzhen Xiao, Jujie He, Jiacai Liu, Chaojie Wang, Rui Yan, Wei Shen, Fuxiang Zhang, Jiacheng Xu, Yang Liu, Yahui Zhou

Publicado 2026-03-04
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está ensinando um aluno muito inteligente, mas um pouco confuso, a escrever histórias, resolver problemas de matemática ou ajudar pessoas. O problema é que esse aluno (a Inteligência Artificial) às vezes dá respostas que parecem boas, mas não são realmente úteis, ou pior, podem ser perigosas.

Para corrigi-lo, você precisa de um professor supervisor (o que os cientistas chamam de Reward Model ou Modelo de Recompensa). A função desse professor é ler a resposta do aluno e dizer: "Isso é ótimo!" ou "Isso é ruim!".

O artigo que você enviou, da equipe Skywork AI, conta a história de como eles criaram o melhor professor do mundo até hoje, e o segredo não foi apenas ter mais alunos, mas sim ter um método de ensino muito mais inteligente.

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Problema: Professores que estão "cansados"

Até agora, os "professores" de IA eram treinados com dados que eram ou muito poucos, ou feitos por máquinas que se enganavam facilmente. Era como tentar ensinar alguém a cozinhar usando apenas receitas escritas por robôs que nunca provaram a comida. O resultado? Os professores de IA ficavam confusos, elogiavam pratos queimados ou ignoravam erros sutis. Eles eram "frágeis": funcionavam bem em testes fáceis, mas falhavam na vida real.

2. A Solução: A "Fábrica de Dados" SynPref-40M

Os pesquisadores criaram um novo método para coletar e organizar dados. Eles chamaram esse conjunto de dados de SynPref-40M.

  • A Analogia: Imagine que você tem uma biblioteca gigante com 40 milhões de livros de histórias (dados). A maioria está bagunçada, com páginas rasgadas ou escritas por pessoas que não entendem o assunto.
  • O Truque: Em vez de usar todos os livros, eles criaram um processo de duas etapas para selecionar apenas os 26 milhões de melhores histórias, garantindo que cada uma fosse revisada com cuidado.

3. O Método: A Dança entre Humano e Máquina

A grande inovação deles foi uma parceria perfeita entre humanos e IAs, chamada de Sinergia Humano-AI. Eles usaram um processo de duas etapas:

  • Etapa 1: O Chefe Humano (Qualidade)
    Um pequeno grupo de especialistas humanos (os "chefs" da cozinha) revisou um conjunto de dados. Eles não apenas deram uma nota, mas usaram ferramentas de busca e IAs avançadas para verificar fatos, checar códigos e garantir que a resposta fosse realmente correta. Eles criaram um "padrão ouro".

    • Analogia: É como ter um chef estrelado Michelin revisando cada prato antes de ir para o menu.
  • Etapa 2: O Exército de Robôs (Escala)
    Com o "padrão ouro" em mãos, eles usaram IAs poderosas para revisar milhões de outras histórias. Mas aqui está o segredo: as IAs não trabalhavam sozinhas. Elas olhavam para os exemplos que o "Chefe Humano" já tinha aprovado e usavam isso como guia.

    • Analogia: É como ter um estagiário muito inteligente que aprende observando o chef. Se o estagiário tiver dúvida, ele olha para o exemplo do chef. Se ele errar, o sistema identifica o erro e pede para o estagiário tentar de novo com mais ajuda.

4. O Resultado: Skywork-Reward-V2

Com esses dados super limpos e bem organizados, eles treinaram uma nova família de professores de IA chamada Skywork-Reward-V2.

  • O Milagre: Eles criaram modelos de tamanhos variados (do pequeno de 0,6 bilhão de parâmetros ao grande de 8 bilhões).
  • A Surpresa: O modelo pequeno (8B) deles foi tão bem treinado que derrotou modelos gigantes de 70 bilhões de parâmetros que eram treinados com dados ruins.
    • Analogia: É como um aluno de 10 anos, que estudou com o melhor método do mundo, batendo um aluno de 20 anos que estudou sozinho com livros velhos e cheios de erros.

5. Por que isso importa?

Os testes mostraram que esses novos "professores" são incríveis em várias áreas:

  • Justiça: Eles não se deixam enganar por respostas que parecem bonitas, mas são falsas (resistência a "estilo" vs. "substância").
  • Segurança: Eles sabem identificar respostas perigosas.
  • Matemática e Código: Eles conseguem verificar se a conta está certa ou se o código funciona, algo que IAs comuns têm dificuldade.

Resumo Final

O artigo diz que qualidade é mais importante que quantidade.
Antes, achávamos que precisávamos de mais dados para melhorar a IA. O Skywork-Reward-V2 provou que precisamos de melhores dados. Ao misturar a sabedoria humana (para garantir a verdade) com a velocidade da máquina (para processar milhões de exemplos), eles criaram o melhor "professor" de IA aberto do mundo hoje.

É como se eles tivessem descoberto que, para ensinar um gênio, não adianta jogar 1 milhão de livros aleatórios na mesa; é melhor ter 100 livros perfeitos, revisados por mestres, e ensinar o aluno a ler cada palavra com atenção.