Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO

Este artículo identifica y resuelve el sesgo de agregación en el aprendizaje por refuerzo al estilo GRPO con recompensas verificables mediante la propuesta de Agregación Equilibrada, un método que promedia por separado los gradientes a nivel de token para respuestas positivas y negativas antes de recombinarlos, mejorando así la estabilidad del entrenamiento y el rendimiento en benchmarks de razonamiento y codificación.

Autores originales: Zhiyuan Zeng, Jiameng Huang, Zhangyue Yin, Jiashuo Liu, Ziniu Li, Bingrui Li, Yuhao Wu, Yining Zheng, Ge Zhang, Wenhao Huang, Xipeng Qiu

Publicado 2026-05-07
📖 6 min de lectura🧠 Análisis profundo

Autores originales: Zhiyuan Zeng, Jiameng Huang, Zhangyue Yin, Jiashuo Liu, Ziniu Li, Bingrui Li, Yuhao Wu, Yining Zheng, Ge Zhang, Wenhao Huang, Xipeng Qiu

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita ni avalada por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Each language version is independently generated for its own context, not a direct translation.

El Panorama General: Enseñar a la IA a Resolver Puzzles

Imagina que estás entrenando a un robot para resolver problemas de matemáticas o escribir código. Le das una instrucción y trata de generar una respuesta. Para enseñarle, utilizas un método llamado Aprendizaje por Refuerzo con Recompensas Verificables (RLVR).

Piensa en esto como un programa de concursos. El robot (la IA) genera varias respuestas diferentes a una sola pregunta. Un árbitro (un programa informático sencillo) las revisa:

  • Si la respuesta es correcta, el robot recibe un "pulgar arriba" (recompensa positiva).
  • Si es incorrecta, el robot recibe un "pulgar abajo" (recompensa negativa).

El objetivo es enseñar al robot a generar más respuestas con "pulgar arriba" y menos con "pulgar abajo". El artículo se centra en un método de entrenamiento específico llamado GRPO, que es popular por ser sencillo y funcionar bien.

El Problema: Cómo Contar los Votos

La cuestión central que aborda el artículo es una pregunta sutil pero crítica: Cuando el robot genera un grupo de respuestas, ¿cómo calculamos la "lección promedio" para aprender?

El robot podría generar 16 respuestas a la vez. Algunas son cortas (5 palabras) y otras son largas (500 palabras). Algunas son correctas y otras incorrectas. El algoritmo de entrenamiento necesita combinar todas estas palabras individuales en una gran "actualización" para mejorar el cerebro del robot.

Hay dos formas principales en las que las personas han estado haciendo esto, y el artículo argumenta que ambas tienen un defecto oculto:

1. El Método "Conteo de Palabras" (Agregación de Tokens)

  • Cómo funciona: Se cuenta cada palabra (token) individual de cada respuesta y se promedian todas juntas.
  • El Defecto (El "Villano Verborrágico"): Imagina un grupo de estudiantes tomando un examen.
    • Estudiante A acierta la respuesta pero escribe una explicación muy corta y concisa (10 palabras).
    • Estudiante B falla la respuesta pero escribe un ensayo masivo y divagante (500 palabras).
    • Si solo cuentas las palabras, la respuesta incorrecta del Estudiante B tiene 50 veces más "peso" en el promedio que la respuesta correcta del Estudiante A.
    • El Resultado: La IA se confunde. Cree que las respuestas largas e incorrectas son más importantes porque ocupan más espacio. Esto se llama "Acoplamiento Signo-Tamaño". La longitud de la respuesta cambia accidentalmente el signo (positivo o negativo) de la lección.

2. El Método "Por Persona" (Agregación de Secuencias)

  • Cómo funciona: Primero calculas la lección promedio para cada respuesta individualmente y luego promedias esas respuestas entre sí.
  • El Defecto (El "Votante Perezoso"): Usando el mismo ejemplo de los estudiantes:
    • Estudiante A (Corto, Correcto) recibe 1 voto.
    • Estudiante B (Largo, Incorrecto) recibe 1 voto.
    • El Resultado: Esto soluciona el problema del "villano verborrágico". Pero ahora, trata una respuesta de 10 palabras exactamente igual que una de 500 palabras. Si la IA aprende mucho de una explicación larga y detallada, este método ignora ese esfuerzo extra. "Subestima" las respuestas largas, tratándolas como si fueran tan simples como las cortas.

La Solución: "Agregación Equilibrada" (BA)

Los autores proponen un nuevo método llamado Agregación Equilibrada (BA). Es como un árbitro inteligente que corrige los defectos de ambos métodos anteriores.

Cómo funciona:

  1. Ordenar las Respuestas: Primero, el árbitro separa las respuestas en dos pilas: la pila de "Buenas" (pulgar arriba) y la pila de "Malas" (pulgar abajo).
  2. Contar Palabras Dentro de las Pilas: Dentro de la pila de "Buenas", cuentan todas las palabras y las promedian. Dentro de la pila de "Malas", cuentan todas las palabras y las promedian.
  3. Equilibrar las Pilas: Finalmente, combinan las dos pilas. Pero aquí está el truco: no las mezclan simplemente al azar. Aseguran que la pila de "Buenas" y la pila de "Malas" tengan una influencia igual en la decisión final, independientemente de cuántas palabras haya en cada pila.

La Analogía:
Imagina un consejo municipal votando sobre un nuevo parque.

  • Método Antiguo 1 (Conteo de Palabras): Las personas que hablan más tiempo obtienen más votos, incluso si están equivocadas.
  • Método Antiguo 2 (Por Persona): Cada persona recibe un voto, incluso si una persona escribió un informe de 50 páginas y otra solo dijo "Sí".
  • Agregación Equilibrada: El consejo se divide en grupos "A Favor del Parque" y "En Contra del Parque". Promedian los argumentos dentro de cada grupo. Luego, otorgan al grupo "A Favor" y al grupo "En Contra" un peso igual en la decisión final, asegurando que la longitud de los argumentos no sesgue el resultado.

¿Qué Descubrieron?

Los investigadores probaron este nuevo método en dos modelos de IA diferentes (Qwen2.5-Math-7B y Qwen3-1.7B) utilizando conjuntos de datos de matemáticas y programación.

  1. La Estabilidad es Clave: Los métodos antiguos a menudo funcionaban bien al principio, pero luego colapsaban o se volvían inestables más adelante en el entrenamiento. El método de "Conteo de Palabras" fue especialmente inestable cuando la IA comenzó a escribir respuestas incorrectas muy largas.
  2. Mejores Resultados: El método de Agregación Equilibrada produjo consistentemente mejores puntuaciones finales. Fue más estable, lo que significa que la IA aprendió de manera constante sin fluctuaciones salvajes en el rendimiento.
  3. Por Qué Importa: El artículo muestra que la "mejor" manera de entrenar una IA depende de cuánto varía la longitud de las respuestas.
    • Si las respuestas varían enormemente en longitud, el método de "Conteo de Palabras" puede ser arriesgado.
    • Si la diferencia entre las longitudes de las respuestas "Buenas" y "Malas" es enorme, el método "Por Persona" puede ser injusto.
    • La Agregación Equilibrada funciona bien en ambas situaciones porque corrige el sesgo específico de cada método.

La Conclusión

El artículo concluye que cómo "mezclas los ingredientes" (agregas los datos) en el entrenamiento de la IA no es solo un pequeño detalle técnico; es una elección de diseño mayor que determina si la IA aprende de manera efectiva o se confunde. Al simplemente separar los ejemplos "buenos" y "malos" antes de promediarlos, los autores crearon un método que es más robusto, estable y efectivo para enseñar a la IA a razonar y programar.

¿Ahogado en artículos de tu campo?

Recibe resúmenes diarios de los artículos más novedosos que coincidan con tus palabras clave de investigación — con resúmenes técnicos, en tu idioma.

Probar Digest →