Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation

Diese Arbeit identifiziert die Austauschbarkeit von Token-Gradienten als notwendige Bedingung für intra-gruppale Lernziele, um bei der Feinabstimmung von Reasoning-Modellen mit spärlichen Belohnungen Gradienten-Konflikte zu vermeiden, und schlägt minimale Transformationen vor, die das Training stabilisieren und die Leistung verbessern.

Fei Ding, Yongkang Zhang, youwei wang, Zijian Zeng

Veröffentlicht 2026-04-16
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der "Lern-Stau" im Team

Stell dir vor, du hast eine Gruppe von Schülern (das sind die Künstlichen Intelligenzen oder KI-Modelle), die alle versuchen, eine schwierige Matheaufgabe zu lösen.

  • Die alte Methode: Jeder Schüler schreibt eine Lösung auf. Der Lehrer gibt am Ende nur ein einziges Feedback: "Richtig" oder "Falsch".
  • Das Problem: Wenn ein Schüler eine Lösung schreibt, die fast perfekt ist, aber am Ende einen kleinen Tippfehler hat, wird er trotzdem als "falsch" abgestempelt. Aber was ist mit den Schülern, die die richtige Antwort haben, aber auf völlig unterschiedliche Weise geschrieben haben? Oder was ist mit den Schülern, die in den ersten 90% ihrer Antwort völlig identisch sind, aber am Ende scheitern?

In der KI-Forschung nennt man das sparse termination rewards (spärliche Belohnungen am Ende). Das Problem ist: Die KI lernt oft Dinge, die gar nicht wichtig sind. Sie lernt zum Beispiel, dass das Wort "Die Antwort ist..." immer vorkommt, und übertreibt damit, obwohl es für die Lösung der Aufgabe egal ist. Das nennt die Forscher "Lern-Steuer" (Learning Tax). Es ist, als würde ein Schüler stundenlang die Hausaufgabennummer in roter Schrift üben, anstatt die eigentliche Aufgabe zu lösen.

Die Entdeckung: Warum das Team-Training scheitert

Die Forscher (Fei Ding und sein Team) haben herausgefunden, warum das passiert. Es liegt an einer strukturellen Schwäche in der Art und Weise, wie die KI-Modelle in Gruppen verglichen werden.

Stell dir vor, die Schüler arbeiten in Gruppen von drei Leuten zusammen.

  1. Schüler A schreibt: "Die Antwort ist 20." (Richtig)
  2. Schüler B schreibt: "Die Antwort ist 20." (Richtig)
  3. Schüler C schreibt: "Die Antwort ist 25." (Falsch)

Wenn die KI jetzt lernt, sollte sie den Teil "Die Antwort ist" nicht ändern, weil er bei allen gleich ist und nichts zur Richtigkeit beiträgt. Er ist "neutral".

Aber hier kommt der Haken: Die aktuelle KI-Logik betrachtet die ganze Antwortkette als ein einziges Paket. Wenn Schüler A und B fast identisch sind, aber Schüler C ganz anders, mischt die KI-Logik die Belohnungen so durcheinander, dass sie fälschlicherweise annimmt: "Oh, das Wort 'Antwort' war bei den falschen Antworten anders gewichtet!"

Die Analogie:
Stell dir vor, du und dein Freund laufen ein Rennen. Ihr startet beide am selben Punkt und rennt die ersten 100 Meter exakt gleich schnell. Dann rennt dein Freund weiter, und du bleibst stehen.

  • Die alte KI-Logik sagt: "Da du am Ende gestoppt hast, war dein ganzer Lauf (auch die ersten 100 Meter) schlecht. Wir müssen deine ersten 100 Meter korrigieren!"
  • Das ist Unsinn! Die ersten 100 Meter waren perfekt. Du solltest sie nicht ändern.

Die Forscher nennen dieses Phänomen Gradient Cancellation (Gradienten-Kürzung). Im Idealfall sollten sich die "Lernimpulse" für die gemeinsamen, neutralen Teile (die ersten 100 Meter) gegenseitig aufheben (kürzen), damit nur die wirklich wichtigen Teile (der letzte Schritt) gelernt werden. Aber durch technische Tricks (wie "Clipping" oder asymmetrische Gewichtung) passiert diese Kürzung nicht. Die KI lernt also ständig Dinge, die sie nicht lernen sollte. Das führt dazu, dass sie am Ende verwirrt ist, ihre Kreativität verliert (Entropie-Collapse) und sich verschlechtert.

Die Lösung: Der "Gleichmacher" (Intra-Group Transformation)

Die Forscher haben eine einfache, aber geniale Lösung gefunden, um dieses Problem zu beheben. Sie nennen es DFPO (Drift Fixing Policy Optimization).

Stell dir vor, du bist der Trainer. Du siehst, dass die Schüler in der Gruppe unterschiedliche "Stärken" haben, weil die KI-Logik sie unterschiedlich gewichtet.

  • Schüler A hat ein Gewicht von 1,2.
  • Schüler B hat ein Gewicht von 0,8.
  • Schüler C hat ein Gewicht von 1,0.

Weil die Gewichte unterschiedlich sind, heben sich ihre Impulse für die gemeinsamen Wörter nicht auf.

Die neue Methode (DFPO) macht folgendes:
Der Trainer sagt: "Halt! Bevor wir bewerten, nehmen wir das kleinste Gewicht der Gruppe (0,8) und geben es allen."

  • Jetzt haben alle ein Gewicht von 0,8.

Warum funktioniert das?
Wenn alle das gleiche Gewicht haben, heben sich die Impulse für die gemeinsamen Wörter (die "neutralen" Teile) perfekt auf.

  • Wenn Schüler A und B beide "Die Antwort ist" schreiben, und beide das gleiche Gewicht haben, aber einer richtig und einer falsch liegt, heben sich ihre "Lernimpulse" für das Wort "Antwort" gegenseitig auf.
  • Die KI lernt also nicht, dass "Antwort" wichtig ist. Sie lernt nur, dass die letzte Zahl (20 vs. 25) wichtig ist.

Es ist, als würdest du in einer Gruppe von Musikern den Lautstärke-Regler für alle Instrumente auf den niedrigsten Wert setzen, der in der Gruppe vorkommt. Dann hörst du nur noch die Unterschiede, die wirklich zählen, und nicht das Rauschen der gemeinsamen Teile.

Was bringt das?

  1. Stabilität: Die KI lernt nicht mehr "falsche" Dinge (wie das ständige Wiederholen von Floskeln). Sie bleibt stabil.
  2. Effizienz: Sie braucht weniger Versuche, um die Aufgabe zu lösen, weil sie keine Energie in unnötige Korrekturen verschwendet.
  3. Bessere Ergebnisse: Am Ende ist die KI schlauer und kann komplexere Aufgaben (wie Mathe oder Programmieren) besser lösen, weil sie sich auf das Wesentliche konzentriert.

Zusammenfassung in einem Satz

Die Forscher haben entdeckt, dass KI-Modelle beim Lernen in Gruppen oft durch technische Unsauberkeiten "falsche" Dinge lernen, und haben eine einfache Methode entwickelt, die sicherstellt, dass sich die Lernimpulse für gemeinsame, unwichtige Teile gegenseitig aufheben, damit die KI sich nur auf das konzentriert, was wirklich zählt.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →