Ursprüngliche Autoren: Zhiyuan Zeng, Jiameng Huang, Zhangyue Yin, Jiashuo Liu, Ziniu Li, Bingrui Li, Yuhao Wu, Yining Zheng, Ge Zhang, Wenhao Huang, Xipeng Qiu

Veröffentlicht 2026-05-07

📖 5 Min. Lesezeit🧠 Tiefgang

CC BY 4.0

Ursprüngliche Autoren: Zhiyuan Zeng, Jiameng Huang, Zhangyue Yin, Jiashuo Liu, Ziniu Li, Bingrui Li, Yuhao Wu, Yining Zheng, Ge Zhang, Wenhao Huang, Xipeng Qiu

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

Das große Ganze: KI beibringen, Rätsel zu lösen

Stellen Sie sich vor, Sie trainieren einen Roboter, um Matheaufgaben zu lösen oder Code zu schreiben. Sie geben ihm eine Eingabeaufforderung, und er versucht, eine Antwort zu generieren. Um ihn zu lehren, verwenden Sie eine Methode namens Reinforcement Learning with Verifiable Rewards (RLVR) (Bestärkendes Lernen mit überprüfbaren Belohnungen).

Denken Sie daran wie an eine Quizshow. Der Roboter (die KI) generiert mehrere verschiedene Antworten auf eine einzelne Frage. Ein Schiedsrichter (ein einfaches Computerprogramm) prüft sie:

Wenn die Antwort korrekt ist, erhält der Roboter einen „Daumen hoch" (positive Belohnung).
Wenn sie falsch ist, erhält der Roboter einen „Daumen runter" (negative Belohnung).

Das Ziel ist es, dem Roboter beizubringen, mehr „Daumen hoch"-Antworten und weniger „Daumen runter"-Antworten zu generieren. Das Papier konzentriert sich auf eine spezifische Trainingsmethode namens GRPO, die beliebt ist, weil sie einfach ist und gut funktioniert.

Das Problem: Wie man die Stimmen zählt

Das Kernproblem, das das Papier angeht, ist eine subtile, aber kritische Frage: Wenn der Roboter eine Gruppe von Antworten generiert, wie berechnen wir die „durchschnittliche Lektion", aus der gelernt werden soll?

Der Roboter könnte gleichzeitig 16 Antworten generieren. Manche sind kurz (5 Wörter), andere lang (500 Wörter). Manche sind korrekt, andere falsch. Der Trainingsalgorithmus muss all diese einzelnen Wörter zu einem großen „Update" kombinieren, um das Gehirn des Roboters zu verbessern.

Es gibt zwei Hauptmethoden, wie dies bisher getan wurde, und das Papier argumentiert, dass beide einen versteckten Fehler haben:

1. Die „Wortzähl"-Methode (Token-Aggregation)

Wie es funktioniert: Sie zählen jedes einzelne Wort (Token) jeder Antwort und mitteln sie alle zusammen.
Der Fehler (Der „Schwätzer"): Stellen Sie sich eine Gruppe von Schülern vor, die eine Prüfung schreiben.
- Schüler A bekommt die Antwort richtig, schreibt aber eine sehr kurze, prägnante Erklärung (10 Wörter).
- Schüler B bekommt die Antwort falsch, schreibt aber einen riesigen, abschweifenden Aufsatz (500 Wörter).
- Wenn Sie nur die Wörter zählen, hat die falsche Antwort von Schüler B im Durchschnitt 50-mal mehr „Gewicht" als die korrekte Antwort von Schüler A.
- Das Ergebnis: Die KI wird verwirrt. Sie denkt, die langen, falschen Antworten seien wichtiger, weil sie mehr Platz einnehmen. Dies wird als „Sign-Length Coupling" (Kopplung von Vorzeichen und Länge) bezeichnet. Die Länge der Antwort ändert versehentlich das Vorzeichen (positiv oder negativ) der Lektion.

2. Die „Pro-Person"-Methode (Sequenz-Aggregation)

Wie es funktioniert: Sie berechnen zuerst die durchschnittliche Lektion für jede Antwort einzeln und mitteln dann diese Antworten zusammen.
Der Fehler (Der „faule Wähler"): Unter Verwendung desselben Schülerbeispiels:
- Schüler A (Kurz, Korrekt) erhält 1 Stimme.
- Schüler B (Lang, Falsch) erhält 1 Stimme.
- Das Ergebnis: Dies behebt das Problem des „Schwätzers". Aber jetzt behandelt es eine 10-Wörter-Antwort genau gleich wie eine 500-Wörter-Antwort. Wenn die KI aus einer langen, detaillierten Erklärung viel lernt, ignoriert diese Methode diesen zusätzlichen Aufwand. Sie „gewichtet" lange Antworten herunter und behandelt sie so, als wären sie genauso einfach wie kurze.

Die Lösung: „Balanced Aggregation" (BA)

Die Autoren schlagen eine neue Methode namens Balanced Aggregation (BA) vor. Es ist wie ein cleverer Schiedsrichter, der die Fehler beider vorheriger Methoden behebt.

Wie es funktioniert:

Sortieren der Antworten: Zuerst trennt der Schiedsrichter die Antworten in zwei Stapel: den „Guten" Stapel (Daumen hoch) und den „Schlechten" Stapel (Daumen runter).
Wörter innerhalb der Stapel zählen: Im „Guten" Stapel zählen sie alle Wörter und mitteln sie. Im „Schlechten" Stapel zählen sie alle Wörter und mitteln sie.
Ausgleichen der Stapel: Schließlich kombinieren sie die beiden Stapel. Aber hier ist der Trick: Sie mischen sie nicht einfach zufällig. Sie stellen sicher, dass der „Gute" Stapel und der „Schlechte" Stapel gleichen Einfluss auf die endgültige Entscheidung haben, unabhängig davon, wie viele Wörter in jedem Stapel enthalten sind.

Die Analogie:
Stellen Sie sich einen Stadtrat vor, der über einen neuen Park abstimmt.

Alte Methode 1 (Wortzähl): Diejenigen, die am längsten reden, erhalten die meisten Stimmen, auch wenn sie falsch liegen.
Alte Methode 2 (Pro-Person): Jeder Mensch erhält eine Stimme, auch wenn eine Person einen 50-seitigen Bericht geschrieben hat und eine andere nur „Ja" gesagt hat.
Balanced Aggregation: Der Rat teilt sich in „Pro-Park"- und „Anti-Park"-Gruppen auf. Sie mitteln die Argumente innerhalb jeder Gruppe. Dann geben sie der „Pro"-Gruppe und der „Anti"-Gruppe im endgültigen Entscheid gleiches Gewicht, wodurch sichergestellt wird, dass die Länge der Argumente das Ergebnis nicht verzerrt.

Was haben sie herausgefunden?

Die Forscher testeten diese neue Methode an zwei verschiedenen KI-Modellen (Qwen2.5-Math-7B und Qwen3-1.7B) unter Verwendung von Mathematik- und Coding-Datensätzen.

Stabilität ist der Schlüssel: Die alten Methoden funktionierten oft am Anfang gut, stürzten dann aber ab oder wurden später im Training instabil. Die „Wortzähl"-Methode war besonders instabil, wenn die KI begann, sehr lange, falsche Antworten zu schreiben.
Bessere Ergebnisse: Die Methode Balanced Aggregation erzeugte konsistent bessere Endwerte. Sie war stabiler, was bedeutet, dass die KI stetig lernte, ohne wilde Schwankungen in der Leistung.
Warum es wichtig ist: Das Papier zeigt, dass die „beste" Art, eine KI zu trainieren, davon abhängt, wie stark die Länge der Antworten variiert.
- Wenn die Antworten stark in der Länge variieren, kann die „Wortzähl"-Methode riskant sein.
- Wenn der Unterschied zwischen den Längen „guter" und „schlechter" Antworten riesig ist, kann die „Pro-Person"-Methode unfair sein.
- Balanced Aggregation funktioniert in beiden Situationen gut, weil sie die spezifische Verzerrung jeder Methode behebt.

Das Fazit

Das Papier kommt zu dem Schluss, dass die Art und Weise, wie man die „Zutaten" (die Daten) beim KI-Training „mischt" (aggregiert), nicht nur eine winzige technische Einzelheit ist; es ist eine wichtige Designentscheidung, die bestimmt, ob die KI effektiv lernt oder verwirrt wird. Indem die Autoren einfach die „guten" und „schlechten" Beispiele vor dem Mitteln trennten, schufen sie eine Methode, die robuster, stabiler und effektiver ist, um KI beim Denken und Codieren zu unterrichten.

Each language version is independently generated for its own context, not a direct translation.

Technische Zusammenfassung: Balancierte Aggregation: Verständnis und Behebung von Aggregationsverzerrungen in GRPO

Problemstellung

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich zu einem Standardparadigma zur Verbesserung von Schlussfolgerungen und Code-Generierung in Large Language Models (LLMs) entwickelt, wobei Group Relative Policy Optimization (GRPO) aufgrund seiner Einfachheit und des Fehlens eines separaten Kritikers eine weit verbreitete Methode ist. Eine kritische Designentscheidung innerhalb von GRPO bleibt jedoch wenig erforscht: die Aggregationsregel für token-level Policy-Gradient-Terme innerhalb einer Stichprobengruppe.

Aktuelle Praktiken fallen im Allgemeinen in zwei Kategorien:

Sequenzaggregation: Der Standard in GRPO, der die Token-Beiträge innerhalb jeder Antwort zunächst mittelt und dann über die Antworten hinweg mittelt. Dies gewichtet längere Antworten implizit niedriger, da jede Sequenz unabhängig von der Token-Anzahl gleich stark beiträgt.
Tokenaggregation: Wird von neueren Arbeiten wie DAPO und Dr.GRPO befürwortet, die das geklammerte Ziel direkt über alle Token in der Stichprobengruppe mitteln.

Die Arbeit identifiziert, dass diese beiden Regeln systematisch unterschiedliche Optimierungsverzerrungen hervorrufen:

Tokenaggregation führt zu einer Vorzeichen-Längen-Kopplungsverzerrung. Der relative Beitrag positiver (Advantage > 0) und negativer (Advantage < 0) Stichproben hängt nicht nur von ihren normalisierten Advantages ab, sondern auch von ihren durchschnittlichen Antwortlängen. Wenn positive und negative Antworten unterschiedliche Längenverteilungen aufweisen, kann die Tokenaggregation eine Seite der Aktualisierung systematisch verstärken, was zu instabilen Trainingsdynamiken führt.
Sequenzaggregation entfernt die Vorzeichen-Längen-Kopplung, indem sie jeder Antwort das gleiche Gewicht zuweist. Sie führt jedoch eine Sequenz-Gleichgewichts-Verzerrung ein, bei der längere Antworten implizit niedriger gewichtet werden, da der Verlust pro Sequenz und nicht pro Token gemittelt wird.

Keiner der beiden Ansätze ist universell optimal; die Wirksamkeit jedes Ansatzes hängt von der Varianz der Antwortlängen und der Lücke zwischen den Längen positiver und negativer Stichproben ab.

Methodik: Balancierte Aggregation (BA)

Um die Spannung zwischen diesen Verzerrungen zu adressieren, schlagen die Autoren die Balancierte Aggregation (BA) vor, einen einfachen Drop-in-Ersatz für den Aggregationsschritt in GRPO-artigem RLVR.

Der Kernmechanismus von BA umfasst einen dreistufigen Prozess:

Partitionierung: Die Stichprobengruppe von Antworten wird basierend auf dem Vorzeichen ihrer normalisierten Advantages in zwei Teilmengen aufgeteilt: eine positive Teilmenge ( $S_+$ ) und eine negative Teilmenge ( $S_-$ ).
Intra-Teilchen-Mittelung: Token-level-Mittelwerte werden separat innerhalb jeder Teilmenge berechnet. Dies bewahrt die Eigenschaft der Token-level-Mittelung innerhalb von Vorzeichengruppen und vermeidet die starke pro-Sequenz-Gleichgewichtung der Standard-Sequenzaggregation.
Inter-Teilchen-Kombination: Die beiden Teilchen-Verluste werden mit Gewichten kombiniert, die proportional zur Anzahl der Sequenzen in jeder Teilmenge sind ( $k/G$ für positiv und $(G-k)/G$ für negativ, wobei $k$ die Anzahl der positiven Sequenzen ist).

Theoretische Begründung:
Im Standard-GRPO-Setting mit binären Belohnungen stellt sicher, dass dieses spezifische Gewichtungsschema, dass BA denselben Vorzeichen-Ausgleichsfaktor zwischen den Vorzeichen induziert wie die Sequenzaggregation ( $\sqrt{k(G-k)}/G$ ). Folglich bewahrt BA die Vorzeichen-Ausgleichseigenschaft der Sequenzaggregation (Entfernung der Vorzeichen-Längen-Kopplung), vermeidet jedoch den starken Sequenz-Gleichgewichtungseffekt, der lange Antworten bestraft. Die Arbeit liefert zudem eine generalisierte Formulierung für nicht-binäre Belohnungen, bei der die Gewichte durch die Advantage-Masse und nicht durch die Sequenzanzahl bestimmt werden.

Hauptbeiträge

Vereinheitlichte Analyse der Aggregationsverzerrung: Die Arbeit liefert eine formale Analyse, die zeigt, dass die Verlustaggregation in GRPO kein harmloses Implementierungsdetail ist. Sie charakterisiert die spezifische „Vorzeichen-Längen-Kopplungs"-Verzerrung bei der Tokenaggregation und die „Sequenz-Gleichgewichts"-Verzerrung bei der Sequenzaggregation.
Balancierte Aggregation (BA): Der Vorschlag von BA als einfache Drop-in-Alternative, die Vorzeichen- und Längenverzerrungen entkoppelt. Sie führt eine Token-level-Mittelung innerhalb von Vorzeichengruppen durch, gleicht die Gruppen jedoch basierend auf der Sequenzanzahl aus.
Empirische Validierung und Diagnosekriterien: Umfangreiche Experimente zeigen, dass die relative Wirksamkeit von Token- versus Sequenzaggregation durch die Varianz der Antwortlängen und die Lücke zwischen positiven und negativen Längen bestimmt wird. Die Arbeit zeigt, dass BA über verschiedene Modelle und Datensätze hinweg konsistent beide Baselines übertrifft.

Experimentelle Ergebnisse

Die Autoren evaluierten BA mit Qwen2.5-Math-7B und Qwen3-1.7B auf zwei Trainingsdatensätzen (DAPO-17k und Polaris). Die Leistung wurde über sechs Benchmarks gemessen: Math-500, AIME 2024, AIME 2025, OlympicBench, Minerva-MATH und LiveCodeBench.

Wichtige Erkenntnisse:

Trainingsstabilität: Tokenaggregation führt häufig zu einer schweren Leistungsverschlechterung in späteren Trainingsphasen (hoher Peak-zu-letzter-Schritt-Abfall), während BA eine robuste Genauigkeit im letzten Schritt aufrechterhält.
Modellabhängige Dynamiken:
- Bei Qwen2.5-Math-7B (das eine größere Variation der Antwortlängen aufwies) übertraf die Tokenaggregation zunächst die Sequenzaggregation, aber BA übertraf beide sowohl in der Peak-Leistung als auch in der Leistung im letzten Schritt.
- Bei Qwen3-1.7B (das eine größere Lücke zwischen positiven und negativen Längen aufwies) war die Sequenzaggregation stabiler als die Tokenaggregation, aber BA erreichte erneut die höchsten Peak- und Last-Schritt-Metriken.
Verlustdynamik: Die Analyse der Policy-Gradient-Verlustverläufe zeigte, dass die Tokenaggregation aufgrund der Vorzeichen-Längen-Kopplung massive Drifts weg von Null verursacht, während BA und Sequenzaggregation stabil nahe Null bleiben.
Gesamtleistung: BA lieferte konsistent eine stärkere Endleistung und eine bessere Trainingsstabilität im Vergleich zur Standard-Token- und Sequenzaggregation über alle getesteten Regime hinweg.

Bedeutung und Behauptungen

Die Arbeit behauptet, dass die Aggregation eine Designentscheidung ersten Ranges in GRPO-artigem RLVR ist und kein geringfügiges Implementierungsdetail. Die Bedeutung der Arbeit liegt in:

Stabilität: BA liefert ein robusteres Optimierungssignal, das den Trainingskollaps verhindert, der häufig bei der Tokenaggregation in späteren Phasen beobachtet wird.
Universalität: Im Gegensatz zur Token- oder Sequenzaggregation, die nur unter spezifischen Bedingungen der Längenverteilung gut funktionieren, ist BA über verschiedene Modellgrößen und Datensätze hinweg robust.
Designprinzip: Die Arbeit hebt hervor, dass ein effektives RLVR eine Balance der inter-Vorzeichen-Gewichtung (zur Verhinderung von Verzerrungen) erfordert, ohne die Token-Informationen innerhalb der Vorzeichen zu verwerfen (um das Signal aus langen Antworten zu erhalten).

Die Autoren schließen, dass die Balancierte Aggregation eine einfache, aber effektive Lösung für die inhärenten Zielkonflikte in GRPO bietet, was zu einer stabileren Optimierung und einer verbesserten Endleistung des Modells bei Schlussfolgerungs- und Codierungsaufgaben führt.

Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO