Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO

Dieser Beitrag identifiziert und löst Aggregationsverzerrungen in GRPO-artigem Reinforcement Learning mit überprüfbaren Belohnungen durch die Einführung von Balanced Aggregation, einer Methode, die Token-Level-Gradienten für positive und negative Antworten separat mittelt, bevor sie wieder kombiniert werden, wodurch die Trainingsstabilität und Leistung über Reasoning- und Coding-Benchmarks hinweg verbessert werden.

Ursprüngliche Autoren: Zhiyuan Zeng, Jiameng Huang, Zhangyue Yin, Jiashuo Liu, Ziniu Li, Bingrui Li, Yuhao Wu, Yining Zheng, Ge Zhang, Wenhao Huang, Xipeng Qiu

Veröffentlicht 2026-05-07
📖 5 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Zhiyuan Zeng, Jiameng Huang, Zhangyue Yin, Jiashuo Liu, Ziniu Li, Bingrui Li, Yuhao Wu, Yining Zheng, Ge Zhang, Wenhao Huang, Xipeng Qiu

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

Das große Ganze: KI beibringen, Rätsel zu lösen

Stellen Sie sich vor, Sie trainieren einen Roboter, um Matheaufgaben zu lösen oder Code zu schreiben. Sie geben ihm eine Eingabeaufforderung, und er versucht, eine Antwort zu generieren. Um ihn zu lehren, verwenden Sie eine Methode namens Reinforcement Learning with Verifiable Rewards (RLVR) (Bestärkendes Lernen mit überprüfbaren Belohnungen).

Denken Sie daran wie an eine Quizshow. Der Roboter (die KI) generiert mehrere verschiedene Antworten auf eine einzelne Frage. Ein Schiedsrichter (ein einfaches Computerprogramm) prüft sie:

  • Wenn die Antwort korrekt ist, erhält der Roboter einen „Daumen hoch" (positive Belohnung).
  • Wenn sie falsch ist, erhält der Roboter einen „Daumen runter" (negative Belohnung).

Das Ziel ist es, dem Roboter beizubringen, mehr „Daumen hoch"-Antworten und weniger „Daumen runter"-Antworten zu generieren. Das Papier konzentriert sich auf eine spezifische Trainingsmethode namens GRPO, die beliebt ist, weil sie einfach ist und gut funktioniert.

Das Problem: Wie man die Stimmen zählt

Das Kernproblem, das das Papier angeht, ist eine subtile, aber kritische Frage: Wenn der Roboter eine Gruppe von Antworten generiert, wie berechnen wir die „durchschnittliche Lektion", aus der gelernt werden soll?

Der Roboter könnte gleichzeitig 16 Antworten generieren. Manche sind kurz (5 Wörter), andere lang (500 Wörter). Manche sind korrekt, andere falsch. Der Trainingsalgorithmus muss all diese einzelnen Wörter zu einem großen „Update" kombinieren, um das Gehirn des Roboters zu verbessern.

Es gibt zwei Hauptmethoden, wie dies bisher getan wurde, und das Papier argumentiert, dass beide einen versteckten Fehler haben:

1. Die „Wortzähl"-Methode (Token-Aggregation)

  • Wie es funktioniert: Sie zählen jedes einzelne Wort (Token) jeder Antwort und mitteln sie alle zusammen.
  • Der Fehler (Der „Schwätzer"): Stellen Sie sich eine Gruppe von Schülern vor, die eine Prüfung schreiben.
    • Schüler A bekommt die Antwort richtig, schreibt aber eine sehr kurze, prägnante Erklärung (10 Wörter).
    • Schüler B bekommt die Antwort falsch, schreibt aber einen riesigen, abschweifenden Aufsatz (500 Wörter).
    • Wenn Sie nur die Wörter zählen, hat die falsche Antwort von Schüler B im Durchschnitt 50-mal mehr „Gewicht" als die korrekte Antwort von Schüler A.
    • Das Ergebnis: Die KI wird verwirrt. Sie denkt, die langen, falschen Antworten seien wichtiger, weil sie mehr Platz einnehmen. Dies wird als „Sign-Length Coupling" (Kopplung von Vorzeichen und Länge) bezeichnet. Die Länge der Antwort ändert versehentlich das Vorzeichen (positiv oder negativ) der Lektion.

2. Die „Pro-Person"-Methode (Sequenz-Aggregation)

  • Wie es funktioniert: Sie berechnen zuerst die durchschnittliche Lektion für jede Antwort einzeln und mitteln dann diese Antworten zusammen.
  • Der Fehler (Der „faule Wähler"): Unter Verwendung desselben Schülerbeispiels:
    • Schüler A (Kurz, Korrekt) erhält 1 Stimme.
    • Schüler B (Lang, Falsch) erhält 1 Stimme.
    • Das Ergebnis: Dies behebt das Problem des „Schwätzers". Aber jetzt behandelt es eine 10-Wörter-Antwort genau gleich wie eine 500-Wörter-Antwort. Wenn die KI aus einer langen, detaillierten Erklärung viel lernt, ignoriert diese Methode diesen zusätzlichen Aufwand. Sie „gewichtet" lange Antworten herunter und behandelt sie so, als wären sie genauso einfach wie kurze.

Die Lösung: „Balanced Aggregation" (BA)

Die Autoren schlagen eine neue Methode namens Balanced Aggregation (BA) vor. Es ist wie ein cleverer Schiedsrichter, der die Fehler beider vorheriger Methoden behebt.

Wie es funktioniert:

  1. Sortieren der Antworten: Zuerst trennt der Schiedsrichter die Antworten in zwei Stapel: den „Guten" Stapel (Daumen hoch) und den „Schlechten" Stapel (Daumen runter).
  2. Wörter innerhalb der Stapel zählen: Im „Guten" Stapel zählen sie alle Wörter und mitteln sie. Im „Schlechten" Stapel zählen sie alle Wörter und mitteln sie.
  3. Ausgleichen der Stapel: Schließlich kombinieren sie die beiden Stapel. Aber hier ist der Trick: Sie mischen sie nicht einfach zufällig. Sie stellen sicher, dass der „Gute" Stapel und der „Schlechte" Stapel gleichen Einfluss auf die endgültige Entscheidung haben, unabhängig davon, wie viele Wörter in jedem Stapel enthalten sind.

Die Analogie:
Stellen Sie sich einen Stadtrat vor, der über einen neuen Park abstimmt.

  • Alte Methode 1 (Wortzähl): Diejenigen, die am längsten reden, erhalten die meisten Stimmen, auch wenn sie falsch liegen.
  • Alte Methode 2 (Pro-Person): Jeder Mensch erhält eine Stimme, auch wenn eine Person einen 50-seitigen Bericht geschrieben hat und eine andere nur „Ja" gesagt hat.
  • Balanced Aggregation: Der Rat teilt sich in „Pro-Park"- und „Anti-Park"-Gruppen auf. Sie mitteln die Argumente innerhalb jeder Gruppe. Dann geben sie der „Pro"-Gruppe und der „Anti"-Gruppe im endgültigen Entscheid gleiches Gewicht, wodurch sichergestellt wird, dass die Länge der Argumente das Ergebnis nicht verzerrt.

Was haben sie herausgefunden?

Die Forscher testeten diese neue Methode an zwei verschiedenen KI-Modellen (Qwen2.5-Math-7B und Qwen3-1.7B) unter Verwendung von Mathematik- und Coding-Datensätzen.

  1. Stabilität ist der Schlüssel: Die alten Methoden funktionierten oft am Anfang gut, stürzten dann aber ab oder wurden später im Training instabil. Die „Wortzähl"-Methode war besonders instabil, wenn die KI begann, sehr lange, falsche Antworten zu schreiben.
  2. Bessere Ergebnisse: Die Methode Balanced Aggregation erzeugte konsistent bessere Endwerte. Sie war stabiler, was bedeutet, dass die KI stetig lernte, ohne wilde Schwankungen in der Leistung.
  3. Warum es wichtig ist: Das Papier zeigt, dass die „beste" Art, eine KI zu trainieren, davon abhängt, wie stark die Länge der Antworten variiert.
    • Wenn die Antworten stark in der Länge variieren, kann die „Wortzähl"-Methode riskant sein.
    • Wenn der Unterschied zwischen den Längen „guter" und „schlechter" Antworten riesig ist, kann die „Pro-Person"-Methode unfair sein.
    • Balanced Aggregation funktioniert in beiden Situationen gut, weil sie die spezifische Verzerrung jeder Methode behebt.

Das Fazit

Das Papier kommt zu dem Schluss, dass die Art und Weise, wie man die „Zutaten" (die Daten) beim KI-Training „mischt" (aggregiert), nicht nur eine winzige technische Einzelheit ist; es ist eine wichtige Designentscheidung, die bestimmt, ob die KI effektiv lernt oder verwirrt wird. Indem die Autoren einfach die „guten" und „schlechten" Beispiele vor dem Mitteln trennten, schufen sie eine Methode, die robuster, stabiler und effektiver ist, um KI beim Denken und Codieren zu unterrichten.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →