Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity

Die Arbeit stellt eine Methode vor, die durch die Approximation einer gefilterten Zielverteilung mittels der α\alpha-Divergenz-Familie die durch herkömmliches Reinforcement Learning verursachte Diversitätsverlust bei LLMs überwindet und so auf dem Lean-Theorembeweis-Benchmark einen neuen State-of-the-Art in Bezug auf die Abdeckung-Präzision-Pareto-Grenze erreicht.

Germán Kruszewski, Pierre Erbacher, Jos Rozen, Marc Dymetman

Veröffentlicht 2026-03-09
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der "Einheitsbrei"-Effekt

Stell dir vor, du hast einen genialen Koch (das KI-Modell), der tausende verschiedene Gerichte kochen kann. Manchmal ist das Essen perfekt, manchmal etwas salzig, manchmal kreativ verrückt.

Nun willst du, dass dieser Koch nur perfekte Gerichte serviert. Du stellst also einen strengen Kritiker (den Verifizierer) auf, der sagt: "Wenn das Essen gut ist, bekommst du einen Stern. Wenn nicht, keine Sterne."

Das Problem bei den bisherigen Methoden (die sogenannten RL-Methoden) ist folgendes: Der Koch lernt schnell, dass er nur ein ganz bestimmtes Gericht kochen muss, um immer Sterne zu bekommen. Vielleicht ist es ein einfaches Spaghetti-gericht. Er hört auf, experimentelle Gerichte zu probieren, weil er Angst hat, den Stern zu verlieren.

Das Ergebnis: Der Koch wird sehr präzise (immer Spaghetti), aber er wird extrem langweilig und verliert seine Kreativität. In der KI-Wissenschaft nennen wir das "Mode Collapse" (Zusammenbruch der Vielfalt). Er hat vergessen, dass er auch andere gute Gerichte kochen konnte.

Die neue Idee: "Alles, was übrig bleibt, muss wahr sein"

Die Autoren dieses Papiers haben eine andere Herangehensweise gewählt. Sie zitieren Sherlock Holmes: "Wenn du das Unmögliche ausgeschlossen hast, muss das Übrige, wie unwahrscheinlich es auch sein mag, die Wahrheit sein."

Statt den Koch zu zwingen, nur das eine perfekte Gericht zu kochen, sagen sie:

  1. Wir nehmen alle Gerichte, die der Koch kochen könnte.
  2. Wir werfen alle schlechten Gerichte weg (die Verifizierer sagen "Nein").
  3. Aber: Wir behalten die relativen Chancen der guten Gerichte bei. Wenn der Koch früher Spaghetti und Pizza gleichermaßen gut konnte, soll er das auch nach dem Training tun.

Das Ziel ist eine Zielverteilung: Eine Liste aller möglichen perfekten Antworten, die so aussieht wie die ursprüngliche Liste des Kochs, nur ohne die Fehler.

Der Trick: Der "Drehregler" für Vielfalt

Das Schwierige ist: Wie bringt man den Koch dazu, dieser Liste zu folgen, ohne wieder in den "Einheitsbrei"-Modus zu verfallen?

Hier kommt der α\alpha-DPG-Algorithmus ins Spiel. Stell dir das wie einen Drehregler vor, den du einstellen kannst:

  • Stellung "Präzision" (nahe 1, z. B. 0,99): Der Regler ist so eingestellt, dass der Koch extrem genau wird. Er ignoriert fast alles, was nicht 100%ig sicher ist. Das ist wie bei den alten Methoden: Sehr gut für einzelne, schwierige Aufgaben, aber wenig Vielfalt.
  • Stellung "Vielfalt" (nahe 0, z. B. 0,25): Der Regler ist so eingestellt, dass der Koch so viele verschiedene gute Lösungen wie möglich behält. Er deckt das ganze Spektrum ab.
  • Die Mitte: Du kannst den Regler irgendwo dazwischen einstellen, je nachdem, was du brauchst.

Die Autoren nennen ihre Methode DMVR (Distributional Matching with Verifiable Rewards). Sie sagen im Grunde: "Wir suchen nicht nach dem einen perfekten Weg, sondern wir filtern den gesamten Wald der Möglichkeiten, um nur die gesunden Bäume übrig zu lassen."

Was haben sie herausgefunden?

Sie haben das an einem sehr schwierigen Test getestet: Mathematische Beweise (in einer Sprache namens Lean). Hier ist es wichtig, viele verschiedene Wege zu einem Beweis zu finden, weil es oft nur einen seltenen Weg gibt, der funktioniert.

  • Die alten Methoden (RL): Waren sehr gut darin, einen Beweis zu finden (hohe Präzision), aber wenn man 256 Versuche machte, fanden sie oft immer denselben Beweis oder gar keinen neuen. Sie waren wie ein Mensch, der immer denselben Weg durch einen Labyrinth nimmt, auch wenn es andere gibt.
  • Die neue Methode (α\alpha-DPG):
    • Wenn man den Regler auf "Vielfalt" stellt, findet das Modell viel mehr verschiedene Lösungen. Es deckt den gesamten Labyrinth ab.
    • Wenn man den Regler auf "Präzision" stellt, ist es genauso gut wie die alten Methoden.
    • Das Beste: Sie haben eine Art "Pareto-Grenze" erreicht. Das bedeutet, sie haben das Maximum an beidem erreicht: Man kann nicht mehr Präzision haben, ohne Vielfalt zu verlieren, und umgekehrt. Sie haben die beste Balance gefunden.

Zusammenfassung in einem Satz

Statt die KI zu zwingen, nur eine Art von Perfektion zu lernen (was sie langweilig macht), filtert diese neue Methode einfach alle Fehler heraus und lässt die KI die ganze Bandbreite ihrer ursprünglichen, kreativen Fähigkeiten beibehalten – und das mit einem Drehregler, mit dem man genau steuern kann, wie vorsichtig oder wie kreativ sie sein soll.

Das Fazit: "Whatever Remains Must Be True" (Alles, was übrig bleibt, muss wahr sein) bedeutet hier: Wenn wir alle falschen Antworten wegwerfen, müssen wir nicht den Rest zerstören, sondern können die verbleibenden guten Antworten feiern und nutzen.