Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy

El artículo presenta Skywork-Reward-V2, una serie de modelos de recompensa de código abierto que alcanzan el estado del arte en múltiples benchmarks gracias al entrenamiento con SynPref-40M, un conjunto de datos masivo de 40 millones de pares de preferencias curado mediante una sinergia escalable entre anotación humana y automatización por IA.

Chris Yuhao Liu, Liang Zeng, Yuzhen Xiao, Jujie He, Jiacai Liu, Chaojie Wang, Rui Yan, Wei Shen, Fuxiang Zhang, Jiacheng Xu, Yang Liu, Yahui Zhou

Publicado 2026-03-04
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que estás entrenando a un robot muy inteligente para que sea un buen compañero de conversación. El problema es que el robot es como un niño genio: sabe mucho, pero no siempre entiende qué es "bueno" o "malo" desde la perspectiva humana. A veces da respuestas que son técnicamente correctas pero suenan raras, o responde con un tono que no nos gusta.

Para arreglar esto, los humanos le damos "premios" (recompensas) al robot cuando dice algo bueno y "castigos" cuando dice algo malo. A este sistema de premios y castigos se le llama Modelo de Recompensa.

El problema es que, hasta ahora, los "jueces" que daban estos premios (los modelos de recompensa existentes) eran un poco torpes. A veces premiaban respuestas largas aunque fueran aburridas, o castigaban respuestas cortas aunque fueran perfectas. No entendían bien los matices humanos.

Aquí es donde entra Skywork-Reward-V2, el nuevo "juez maestro" creado por el equipo de Skywork AI.

¿Cómo lo hicieron? La analogía del "Entrenador Humano y el Asistente Robot"

En lugar de contratar a miles de personas para leer millones de conversaciones (lo cual es lento y carísimo) o dejar que un solo robot decida todo (lo cual es propenso a errores), crearon un equipo de trabajo perfecto: Sinergia Humano-IA.

Imagina un proceso de dos etapas, como si fueras a organizar una biblioteca gigante:

Etapa 1: El Entrenador Humano (Calidad)

  • Tienes un grupo de expertos humanos (los entrenadores).
  • Ellos leen una pequeña cantidad de conversaciones y deciden: "Esta respuesta es la mejor".
  • Pero no solo dicen "bueno" o "malo". Les dan instrucciones muy detalladas al robot: "Fíjate en la gramática", "¿Es esto un hecho real?", "¿Es amable?".
  • El robot aprende de estos ejemplos humanos y empieza a practicar.

Etapa 2: El Asistente Robot Escalable (Cantidad)

  • Ahora que el robot ya sabe un poco, le das una montaña de millones de conversaciones que nadie ha leído todavía.
  • El robot las revisa solo, pero con una regla de oro: "Si no estás 100% seguro, busca a un experto humano para que te ayude a decidir".
  • El robot usa lo que aprendió de los humanos para filtrar millones de datos. Si ve algo que parece malo, lo descarta. Si ve algo que parece bueno, lo guarda.
  • Lo genial es que el robot también se da cuenta de sus propios errores. Si falla en un tipo de pregunta, busca más ejemplos de ese tipo para aprender mejor.

El resultado: SynPref-40M y Skywork-Reward-V2

De este proceso surgieron dos cosas increíbles:

  1. SynPref-40M: Una biblioteca de 40 millones de pares de respuestas (una buena y una mala) que han sido limpiadas y organizadas con mucho cuidado. Es como tener el mejor libro de reglas de etiqueta y conversación del mundo.
  2. Skywork-Reward-V2: Una familia de 8 "jueces" (modelos de recompensa) entrenados con esa biblioteca. Son tan buenos que:
    • Son pequeños pero fuertes: El modelo más pequeño (0.6B) es mejor que muchos modelos gigantes de 70B que había antes. Es como tener un perro de raza pequeña que es más inteligente que un oso pardo.
    • No se dejan engañar: Si un robot escribe una respuesta muy larga y con palabras bonitas pero sin sentido, este nuevo juez lo detecta. Si la respuesta es corta pero perfecta, le da el premio.
    • Son justos: Entienden mejor la seguridad, la matemática y la creatividad.

¿Por qué es importante esto?

Antes, los modelos de recompensa eran como un juez que solo miraba si el acusado llevaba un traje caro (estilo) en lugar de si era inocente (contenido).

Skywork-Reward-V2 es como un juez que ha leído todos los libros de leyes, ha consultado con expertos humanos y ha practicado con millones de casos. Ahora puede decirte con mucha precisión: "Esta respuesta es la mejor porque es útil, segura y correcta, no porque sea larga".

Esto significa que en el futuro, los chatbots y asistentes de IA que uses en tu teléfono o computadora serán mucho más inteligentes, más seguros y entenderán mejor lo que realmente quieres, gracias a que tuvieron un "entrenador" mucho mejor.

En resumen: Crearon un sistema donde los humanos enseñan la "filosofía" a la IA, y la IA escala ese conocimiento a millones de ejemplos, creando un juez digital que es el mejor de su clase para entender lo que los humanos realmente valoran.