Depth-Breadth Synergy in RLVR: Unlocking LLM Reasoning Gains with Adaptive Exploration

Die Arbeit stellt die Methode DARS-Breadth vor, die durch adaptive Exploration schwieriger Probleme (Tiefe) und die Skalierung der Trainingsdatenmenge (Breite) die reasoning-Fähigkeiten von LLMs im Rahmen von Reinforcement Learning mit verifizierbaren Belohnungen signifikant verbessert.

Zhicheng Yang, Zhijiang Guo, Yinya Huang, Yongxin Wang, Dongchun Xie, Hanhui Li, Yiwei Wang, Xiaodan Liang, Jing Tang

Veröffentlicht 2026-04-14
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einen sehr klugen Schüler (einen KI-Modell) beibringen, komplexe Matheaufgaben zu lösen. Bisher gab es eine beliebte Methode, bei der der Schüler viele Lösungsversuche macht, und das System belohnt ihn nur, wenn die Antwort stimmt. Das Problem war: Das System war etwas faul und unfair.

Diese neue Forschung stellt eine cleverere Methode vor, die wir „DARS" nennen. Hier ist die Erklärung, wie das funktioniert, ganz einfach und mit ein paar Bildern aus dem Alltag:

Das Problem: Der faule Lehrer und die „Mittelklasse"-Aufgaben

Stell dir vor, du hast einen Lehrer, der dem Schüler 10 Aufgaben gibt.

  • 5 sind ganz leicht (der Schüler schafft sie fast immer).
  • 3 sind mittelschwer (der Schüler schafft sie manchmal).
  • 2 sind extrem schwer (der Schüler schafft sie fast nie).

Der alte Lehrer (die bisherige KI-Methode) schaut sich die Ergebnisse an und sagt: „Okay, die leichten Aufgaben waren zu einfach, die schweren waren zu schwer. Ich konzentriere mich nur auf die mittelschweren."
Das Problem: Der Schüler lernt nie, die schweren Aufgaben zu lösen, weil der Lehrer ihnen kaum Aufmerksamkeit schenkt. Er bleibt in seiner Komfortzone stecken.

Die Lösung: DARS (Der adaptive Coach)

Die Forscher haben einen neuen Coach entwickelt, der DARS heißt. Er macht zwei Dinge anders:

1. Tiefe (Depth): „Wer braucht mehr Hilfe?"

Statt jedem Schüler die gleiche Anzahl an Versuchen zu geben, macht DARS einen kleinen Test am Anfang:

  • Leichte Aufgabe: Der Schüler schafft sie sofort. Der Coach sagt: „Gut, mach weiter, wir brauchen keine extra Hilfe."
  • Schwere Aufgabe: Der Schüler scheitert beim ersten Versuch. Der Coach sagt: „Aha! Hier ist es hart. Wir geben dir mehr Zeit und mehr Versuche!"

Die Analogie: Stell dir vor, du lernst Klavier.

  • Bei einem einfachen Lied (z. B. „Happy Birthday") spielst du es einmal und bist fertig.
  • Bei einem schwierigen Konzertstück spielst du es einmal, es klappt nicht. Ein normaler Lehrer würde sagen: „Nächste Aufgabe!" Ein DARS-Lehrer würde sagen: „Warte, wir üben dieses schwierige Stück noch 20 Mal, bis du es kannst."
  • Ergebnis: Der Schüler wird nicht nur bei den leichten Liedern besser, sondern meistert endlich die schweren Konzerte. Das nennt man Pass@K (die Wahrscheinlichkeit, dass eine von vielen Versuchen richtig ist).

2. Breite (Breadth): „Mehr Augenpaare auf einmal"

Der zweite Teil der Methode ist die Breite. Bisher haben die KIs oft nur kleine Gruppen von Aufgaben gleichzeitig bearbeitet (wie ein kleiner Klassenraum). Die Forscher haben gesagt: „Lass uns den Klassenraum riesig machen!"

  • Statt 128 Aufgaben gleichzeitig zu bearbeiten, bearbeiten sie jetzt 3072 Aufgaben gleichzeitig.
  • Warum ist das gut? Stell dir vor, du suchst nach einem verlorenen Schlüssel in einem dunklen Zimmer.
    • Mit wenig Licht (kleine Gruppe) siehst du nur einen kleinen Fleck. Du stolperst vielleicht über Dinge.
    • Mit einem riesigen Scheinwerfer (große Gruppe) beleuchtest du den ganzen Raum gleichzeitig. Du siehst den Schlüssel sofort und machst weniger Fehler.
  • Ergebnis: Der Schüler wird viel stabiler und macht weniger Fehler bei den Aufgaben, die er einmal lösen muss. Das nennt man Pass@1.

Die Magie: Tiefe und Breite arbeiten zusammen

Das Geniale an dieser Forschung ist, dass diese beiden Dinge sich nicht gegenseitig behindern, sondern sich ergänzen.

  • Tiefe (DARS) sorgt dafür, dass der Schüler die schwierigsten Probleme versteht (er wird zum Experten).
  • Breite (große Gruppen) sorgt dafür, dass der Schüler zuverlässig ist und nicht zufällig Glück hat (er wird zum Profi).

Wenn man beides kombiniert (DARS-Breadth), bekommt man einen Schüler, der sowohl die härtesten Prüfungen besteht als auch bei normalen Aufgaben fast nie einen Fehler macht.

Zusammenfassung in einem Satz

Statt den KI-Schüler einfach nur mehr arbeiten zu lassen, hat diese neue Methode ihn klüger arbeiten lassen: Sie gab ihm extra Zeit für die harten Nüsse (Tiefe) und schaute sich gleichzeitig viel mehr Aufgaben auf einmal an, um Fehler zu vermeiden (Breite).

Das Ergebnis? Eine KI, die nicht nur besser rechnet, sondern auch tiefer nachdenkt und zuverlässiger ist als je zuvor.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →