CoRPO: Adding a Correctness Bias to GRPO Improves Generalization

El artículo presenta CoRPO, una modificación del algoritmo GRPO que introduce un umbral de corrección en la estimación de ventajas para evitar reforzar soluciones incorrectas, logrando así una mejor generalización y capacidades de razonamiento transferible entre diferentes dominios.

Anisha Garg, Claire Zhang, Nishit Neema, David Bick, Ganesh Venkatesh, Joel Hestness

Publicado 2026-03-06
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que estás entrenando a un estudiante muy inteligente (un modelo de Inteligencia Artificial) para que resuelva problemas de matemáticas o escriba código. El método tradicional, llamado GRPO, es como un profesor que organiza un examen grupal.

Aquí te explico la idea central del paper CoRPO usando analogías sencillas:

1. El Problema: El Profesor "Promedio" (GRPO)

Imagina que el profesor le da un problema difícil a un grupo de 10 estudiantes.

  • La situación: Todos los estudiantes fallan. El estudiante A da una respuesta terrible. El estudiante B da una respuesta ligeramente menos terrible (pero sigue siendo incorrecta).
  • El error del método antiguo (GRPO): El profesor calcula el "promedio" de las respuestas del grupo. Como todos fallaron, el promedio es muy bajo (muy negativo).
  • La consecuencia: El estudiante B, aunque su respuesta es incorrecta, recibe una "estrella" (una recompensa positiva) porque su respuesta fue mejor que el promedio del grupo.
  • El resultado: El modelo aprende que "hacer algo un poco menos malo que los demás" es suficiente para ganar. Esto es peligroso porque refuerza errores. El modelo se vuelve arrogante, cree que sabe más de lo que sabe y deja de explorar soluciones realmente buenas porque se conforma con ser "el mejor de los malos".

2. La Solución: El Profesor "Estricto pero Justo" (CoRPO)

Los autores proponen CoRPO (Optimización de Política Relativa a la Correctitud). Es como cambiar las reglas del examen.

En lugar de comparar al estudiante solo con sus compañeros, el profesor tiene una regla de oro fija: "Para recibir una estrella, tu respuesta debe ser correcta. Si es incorrecta, no importa si eres el mejor del grupo, no recibes nada positivo".

La analogía del "Filtro de Seguridad":
Imagina que el método antiguo es como una carrera donde el ganador es simplemente quien llega antes que el resto, incluso si todos corrieron en la dirección equivocada.
CoRPO pone un semáforo rojo en la meta.

  • Si la respuesta es incorrecta (está detrás del semáforo), el modelo recibe un "no" fuerte (recompensa negativa), sin importar qué tan bien lo hizo comparado con los otros.
  • Solo si la respuesta cruza la línea de "Correctitud" (el semáforo se pone verde), entonces sí se compara con los demás para ver quién es el más rápido o elegante.

3. ¿Por qué funciona mejor? (La Magia)

  • Evita el "Síndrome del Impostor": El método antiguo hacía que el modelo pensara: "¡Soy genial! ¡Gané el grupo!" cuando en realidad estaba equivocado. CoRPO le dice: "No, estás equivocado. Vuelve a intentarlo". Esto evita que el modelo se fije en soluciones malas.
  • Aprende de los errores (Refuerzo Negativo): CoRPO es muy bueno castigando los errores. En lugar de solo premiar lo bueno, se enfoca mucho en eliminar lo malo. Es como un escultor que primero quita toda la piedra que sobra (los errores) antes de pulir la estatua (mejorar la calidad).
  • Generalización (El Superpoder):
    • Los modelos entrenados con el método antiguo (GRPO) son como estudiantes que memorizan las respuestas de sus amigos. Si les cambias el examen (por ejemplo, de programación a matemáticas), se confunden.
    • Los modelos con CoRPO son como estudiantes que realmente entienden la lógica. Como aprendieron a rechazar lo incorrecto de forma estricta, desarrollaron un "sentido común" robusto. Por eso, si entrenas a CoRPO en programación, ¡puede resolver problemas de matemáticas mejor que el otro modelo! Ha aprendido a pensar, no solo a copiar.

En resumen

GRPO es como decir: "¡Bien hecho! Fuiste mejor que el promedio del grupo" (aunque todos estuvieran equivocados).
CoRPO es como decir: "Si no es correcto, no es bueno. Solo si es correcto, entonces veamos quién lo hizo mejor".

Esta pequeña corrección (poner un "piso" de corrección) hace que la Inteligencia Artificial sea más honesta, aprenda más rápido de sus fallos y sea capaz de aplicar lo que aprende en un área a problemas totalmente nuevos.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →