HDPO: Hybrid Distillation Policy Optimization via Privileged Self-Distillation

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Die "Klippen" im Lernprozess

Stell dir vor, du trainierst einen sehr klugen Roboter, damit er Matheaufgaben löst. Du gibst ihm eine Aufgabe, er versucht sie zu lösen, und du sagst ihm: "Richtig!" oder "Falsch!".

Das Problem ist: Wenn der Roboter eine Aufgabe komplett falsch löst (wir nennen das eine "Klippe" oder Cliff), passiert etwas Seltsames. Er weiß nicht nur, dass er falsch lag, sondern er hat keine Ahnung, warum. Da er keine Teilerfolge hatte (keine richtigen Zwischenschritte), bekommt er vom Trainer gar kein Feedback. Es ist, als würde er in einen Abgrund fallen und niemand könnte ihm sagen, wie er wieder hochkommt.

In der Welt der künstlichen Intelligenz bedeutet das: An den schwierigsten Stellen, wo er am meisten lernen müsste, lernt er gar nichts, weil der "Lern-Gradient" (das Signal) verschwindet. Er bleibt dort stecken.

Die Lösung: HDPO – Der "Privilegierte Selbst-Reflexions-Modus"

Die Forscher haben eine clevere Methode namens HDPO (Hybrid Distillation Policy Optimization) entwickelt. Stell dir das wie einen genialen Trainings-Trick vor:

Der Lehrer und der Schüler sind dieselbe Person: Normalerweise braucht man einen riesigen, super-intelligenten Lehrer, um einem kleinen Schüler zu helfen. Hier ist der Roboter aber sowohl Lehrer als auch Schüler.
Der geheime Zettel (Privilegierte Information): Wenn der Roboter bei einer Aufgabe komplett scheitert (die "Klippe"), gibt ihm der Trainer einen geheimen Zettel mit der richtigen Lösung (die "Ground Truth") in die Hand.
Der Trick:
- Als Schüler versucht der Roboter die Aufgabe ohne den Zettel. Er scheitert.
- Als Lehrer versucht er die gleiche Aufgabe mit dem Zettel. Da er die Lösung schon kennt, schafft er es, eine perfekte Erklärung zu schreiben.
- Jetzt schaut sich der "Schüler" (der Roboter ohne Zettel) genau an, wie der "Lehrer" (der Roboter mit Zettel) die Aufgabe gelöst hat, und lernt daraus.

Warum ist das so besonders?

In anderen Methoden müsste man einen zweiten, viel größeren Roboter als Lehrer verwenden. Das ist teuer und oft ungenau, weil der große Lehrer anders denkt als der kleine Schüler.

Bei HDPO ist der Lehrer und der Schüler exakt derselbe Roboter. Der einzige Unterschied ist, dass der Lehrer den geheimen Zettel hat. Das ist wie wenn du selbst lernst, indem du dir sagst: "Okay, wenn ich die Lösung schon wüsste, wie würde ich sie erklären?" und dann versuchst, diese Erklärung zu verstehen. Da es dieselbe Person ist, passt alles perfekt zusammen.

Das Ergebnis: Mehr Mut, mehr Lösungen

Durch diesen Trick passiert etwas Magisches:

Der Roboter lernt endlich auch die schwierigsten Aufgaben, bei denen er vorher stecken geblieben ist.
Er wird nicht nur besser darin, eine Lösung zu finden (was er schon gut konnte), sondern er findet mehr verschiedene Wege, eine Aufgabe zu lösen.

Stell dir vor, du suchst einen Weg aus einem Labyrinth.

Vorher: Der Roboter fand immer nur den einen Weg, den er kannte. Wenn er stecken blieb, gab er auf.
Mit HDPO: Der Roboter lernt, dass es vielleicht 4 oder 8 verschiedene Wege aus dem Labyrinth gibt. Er wird nicht unbedingt schneller auf dem besten Weg sein (das ist wie die "Genauigkeit"), aber er findet viel öfter irgendeinen Weg heraus (das ist die "Abdeckung" oder Coverage).

Zusammenfassung in einem Satz

HDPO gibt dem Roboter bei den Aufgaben, die er nicht lösen kann, einen kleinen "Spickzettel" mit der Lösung, damit er sich selbst beibringen kann, wie man diese Aufgaben löst – und zwar so, dass er am Ende mehr verschiedene Lösungswege beherrscht, ohne dabei seine Grundfähigkeiten zu verlieren.

Es ist wie ein Lehrer, der einem Schüler, der eine Aufgabe nicht versteht, nicht einfach die Antwort gibt, sondern sagt: "Schau mal, wenn ich die Antwort schon wüsste, wie würde ich sie dir erklären? Und jetzt versuchst du, das zu verstehen."

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung: Das „Cliff"-Problem im Reinforcement Learning

Große Sprachmodelle (LLMs), die mit Reinforcement Learning (RL) für mathematisches Reasoning trainiert werden, stoßen auf ein fundamentales Hindernis, das als „Cliff"-Problem bezeichnet wird.

Der Mechanismus: Bei Algorithmen wie Group Relative Policy Optimization (GRPO) wird der Lernfortschritt durch den Vergleich von mehreren Rollouts (Generierungen) pro Prompt berechnet. Wenn ein Prompt so schwierig ist, dass alle generierten Rollouts fehlschlagen (Reward = 0), verschwindet der RL-Gradient vollständig.
Die Konsequenz: Diese „Cliff"-Prompts repräsentieren die Grenze der aktuellen Fähigkeiten des Modells. Da alle Rollouts denselben (Null-)Reward erhalten, gibt es keine Varianz, keine Vorteilsschätzung und somit keinen Lernsignal. Das Modell lernt nur von Prompts mittlerer Schwierigkeit, bei denen einige Rollouts erfolgreich sind, während die schwierigsten Probleme ignoriert werden.
Bisherige Ansätze: Existierende Lösungen (Curriculum-Learning, Scaffolding, Experience Replay, Prozess-Rewards) sind oft komplex, erfordern zusätzliche Modelle oder Hyperparameter und umgehen das Problem eher, als es direkt zu lösen.

2. Methodik: HDPO (Hybrid Distillation Policy Optimization)

HDPO kombiniert Standard-RL mit einer privilegierten Selbst-Distillation, um genau diese Cliff-Prompts zu adressieren.

Kernidee:
Das Modell fungiert sowohl als Lehrer (Teacher) als auch als Schüler (Student).

Identifikation: In jedem Trainingsschritt werden Prompts identifiziert, bei denen alle Standard-Rollouts fehlschlagen (Cliffs).
Privilegierte Generierung: Für diese Prompts wird dem Modell Ground-Truth-Information (die korrekte Lösung) als zusätzlicher Kontext bereitgestellt. Unter diesem privilegierten Kontext generiert das Modell (der Lehrer) neue Rollouts.
Filterung: Nur die Rollouts, die unter dem privilegierten Kontext korrekt sind (Reward = 1), werden behalten.
Distillation: Die Token-Level-Verteilung des Lehrers (mit Ground Truth) wird in den Schüler (ohne Ground Truth) mittels Jensen-Shannon-Divergenz (JSD) distilliert.

Der Trainingsverlust:
Der Gesamtverlust $L_{HDPO}$ setzt sich aus dem standardmäßigen GRPO-Verlust und einem gewichteten Distillationsverlust für die Cliff-Prompts zusammen:
$L_{HDPO}(\theta) = L_{GRPO}(\theta) + \lambda \cdot L_{JSD}(\theta)$
Dabei steuert der Parameter $\lambda$ den Trade-off zwischen Exploration (Abdeckung) und Exploitation (Greedy-Accuracy).

3. Theoretische Beiträge und Garantien

Das Paper liefert zwei wesentliche theoretische Beweise, die die Methode fundieren:

Proposition 1 (Engere Realisierbarkeitsschranke):
Im Gegensatz zur herkömmlichen Distillation zwischen zwei verschiedenen Modellen (Cross-Model), bei der eine Diskrepanz durch Architekturunterschiede entsteht, nutzt HDPO dasselbe Modell für Lehrer und Schüler.
- Der Realisierbarkeitsgap (die Divergenz zwischen Lehrer- und Schülerverteilung) ist hier strikt enger begrenzt.
- Der Gap hängt nur von der Lipschitz-Konstante des Modells und dem Informationsgehalt der Ground Truth ab. Der Term für „Modell-Mismatch" entfällt vollständig, da die Gewichte identisch sind.
Proposition 2 (Optimalität des R=1-Filterings):
Es wird bewiesen, dass das Filtern nach korrekten Lösungen ( $R=1$ ) im Grenzwert eines harten Schwellenwerts ( $\beta \to 0$ ) die optimale KL-regulisierte RL-Policy wiederherstellt.
- Auf Cliff-Prompts ist die Wahrscheinlichkeit für eine korrekte Lösung ohne Ground Truth nahe Null. Durch das Hinzufügen der Ground Truth wird der Support der korrekten Lösungen im Lehrer-Modell wiederhergestellt, was dem Schüler ein definiertes Lernziel gibt, wo das RL-Gradient sonst null wäre.

4. Experimentelle Ergebnisse

Die Methode wurde auf dem Datensatz OpenMathInstruct-2 mit dem Modell Qwen2.5-Math-1.5B-Instruct evaluiert.

Metriken: HDPO verbessert konsistent die Abdeckungsmetriken (pass@4 und pass@8), während die Greedy-Accuracy (pass@1) weitgehend erhalten bleibt.
Ergebnisse:
- Bei $\lambda = 0.01$ : Steigerung von pass@4 um +0,8–1,1 % und pass@8 um +0,4–1,7 % gegenüber dem GRPO-Baseline, bei nahezu unveränderter pass@1.
- Bei $\lambda = 0.1$ : Stärkere Verbesserung der Abdeckung (pass@8 +1,4–1,7 %), jedoch mit einem leichten Rückgang bei pass@1. Dies zeigt, dass $\lambda$ den Trade-off zwischen der Breite der Lösungsstrategien (Exploration) und der Präzision der besten Lösung (Exploitation) direkt steuert.
Hardware-Variation: Die Ergebnisse waren robust über verschiedene GPU-Cluster (H200 vs. H100), wobei kleine quantitative Schwankungen auf Floating-Point-Nichtdeterminismus zurückzuführen waren.

5. Bedeutung und Fazit

HDPO stellt einen Paradigmenwechsel dar, um das „Cliff"-Problem im RL für Reasoning zu lösen:

Einfachheit: Im Gegensatz zu komplexen Ansätzen mit Replay-Buffern oder Prozess-Reward-Modellen benötigt HDPO nur einen zusätzlichen Forward-Pass mit Ground Truth und eine Standard-Distillations-Loss-Funktion.
Effizienz: Es nutzt die Fähigkeit des Modells, Probleme zu lösen, wenn es „Hint" (Ground Truth) erhält, um diese Fähigkeit auf den unprivilegierten Kontext zu übertragen.
Zukunftsperspektive: Die Autoren schlagen ein „Expand-then-Sharpen"-Curriculum vor: Zuerst HDPO nutzen, um die Abdeckung auf schwierigen Prompts zu erweitern, und anschließend RL nutzen, um die dominante Lösungsmethode zu schärfen.

Zusammenfassend bietet HDPO eine theoretisch fundierte und praktisch effektive Methode, um Lernsignale dort zu erzeugen, wo herkömmliches Reinforcement Learning versagt, und erweitert so die Grenzen der Fähigkeiten von LLMs im mathematischen Reasoning.