Duel-Evolve: Reward-Free Test-Time Scaling via LLM Self-Preferences

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der LLM ist sein eigener Richter

Stell dir vor, du hast einen sehr klugen, aber manchmal etwas verwirrten Assistenten (das ist die KI, oder „LLM"). Du willst, dass er eine schwierige Aufgabe löst, zum Beispiel eine komplexe Matheaufgabe oder einen fehlerfreien Computercode schreibt.

Das Problem ist: Wie weißt du, ob die Lösung gut ist?
Normalerweise braucht man dafür einen strengen Lehrer oder einen automatischen Prüfer, der sagt: „Das ist eine 10" oder „Das ist eine 2". Aber bei vielen kreativen oder komplexen Aufgaben gibt es diesen Lehrer nicht. Oder er ist zu teuer, zu langsam oder einfach nicht vorhanden.

Frühere Methoden haben versucht, die KI zu fragen: „Wie gut ist deine eigene Antwort?" Aber die KI ist da oft unsicher, inkonsistent oder lügt sich selbst etwas vor.

Die Lösung: Ein Turnier statt einer Note

Die Autoren des Papers haben eine geniale Idee: Warum nicht einen Wettkampf veranstalten?

Statt die KI zu fragen: „Wie viele Punkte hat Lösung A?", fragen sie sie: „Welche Lösung ist besser: A oder B?"

Das ist für eine KI viel einfacher. Sie kann zwei Texte vergleichen und sagen: „A klingt logischer" oder „B hat weniger Fehler". Das ist wie beim Schach: Es ist schwer, die absolute Stärke eines Spielers zu berechnen, aber es ist leicht zu sagen, wer in einem einzelnen Spiel gewonnen hat.

Wie funktioniert DUEL-EVOLVE? (Die Geschichte vom Evolutionären Turnier)

Stell dir das Verfahren wie ein riesiges, sich ständig erneuerndes Sportturnier vor, bei dem die KI sowohl die Sportler (die Lösungen) als auch die Schiedsrichter (die Bewertung) ist.

Hier ist der Ablauf in drei einfachen Schritten:

1. Das Duell (Der Wettkampf)

Die KI erzeugt viele verschiedene Lösungen für ein Problem. Dann nimmt sie zwei zufällige Lösungen und lässt sie gegeneinander antreten.

Die Frage: „Schiedsrichter-KI, wer gewinnt: Lösung A oder Lösung B?"
Das Ergebnis: Die KI entscheidet. Aber sie ist nicht perfekt; manchmal irrt sie sich. Deshalb lassen sie sie viele, viele Male kämpfen.

2. Der Punktestand (Die Statistik)

Nach jedem Duell wird der Punktestand aktualisiert. Aber da die KI manchmal irrt, ist der Punktestand nicht absolut sicher.

Die Analogie: Stell dir vor, du hast eine Gruppe von Kandidaten. Du weißt nicht genau, wer der Beste ist, aber du hast eine Wahrscheinlichkeit: „Kandidat A hat 80 % Chance, der Beste zu sein, Kandidat B nur 20 %."
Das System nutzt eine spezielle mathematische Methode (Bradley-Terry-Modell), um aus allen diesen kleinen Duellen ein globales Ranking zu erstellen. Es weiß also: „Dieser Kandidat ist wahrscheinlich gut, aber wir sind uns noch nicht 100 % sicher."

3. Die Evolution (Die nächste Runde)

Jetzt wird es spannend. Das System nutzt das Ranking, um die nächsten Kandidaten zu wählen.

Die klugen Eltern: Es sucht sich die Kandidaten aus, die wahrscheinlich die besten sind (aber auch ein bisschen Unsicherheit haben), und sagt der KI: „Schau dir diese Gewinner an und erfinde etwas Besseres!"
Der Kreislauf: Die KI erzeugt neue, verbesserte Versionen basierend auf den „Eltern". Diese neuen Kandidaten treten wieder gegen alte an, das Ranking wird aktualisiert, und die besten werden wieder zu Eltern für die nächste Runde.

Warum ist das so erfolgreich?

Das Paper zeigt, dass diese Methode auf zwei sehr schwierigen Gebieten (Mathe und Programmieren) extrem gut funktioniert:

Kein externer Lehrer nötig: Die KI braucht keinen menschlichen Prüfer. Sie bewertet sich selbst durch Vergleiche.
Lernen aus Fehlern: Da die KI immer wieder neue Varianten aus den besten Lösungen entwickelt, verbessert sie sich mit jeder Runde (Generation).
Umgang mit Unsicherheit: Das System ist schlau genug zu wissen, wann es sich unsicher ist. Es investiert mehr Zeit in das Vergleichen von Kandidaten, bei denen es unentschieden ist, und ignoriert Kandidaten, die offensichtlich schlecht sind.

Die Ergebnisse im Überblick

Mathe (MathBench): Die Methode erreichte 94 % Richtigkeit. Das ist unglaublich viel besser als alle anderen Methoden (die besten vorherigen kamen nur auf ca. 72 %).
Programmieren (LiveCodeBench): Hier erreichte sie 37 % Richtigkeit. Auch das ist ein riesiger Sprung (+12 %) gegenüber anderen fortschrittlichen Methoden.

Fazit

DUEL-EVOLVE ist wie ein genialer Trainer, der eine Mannschaft von KI-Lösungen trainiert. Anstatt jedem Spieler eine Note zu geben, lässt er sie gegeneinander kämpfen. Aus tausenden von Kämpfen lernt das System, wer wirklich stark ist, und lässt die Starken neue, noch stärkere Lösungen erfinden.

Es ist ein Beweis dafür, dass man KI nicht unbedingt mit strengen Regeln und Noten dressieren muss, sondern dass ein fairer Wettkampf untereinander oft der beste Weg ist, um die wahre Leistung zu steigern.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Viele Anwendungen von Large Language Models (LLMs) erfordern die Optimierung von Ausgaben in einem diskreten, kombinatorischen Raum (z. B. mathematische Beweise, Code-Generierung oder logische Schlussfolgerungen). Das Ziel ist es, eine Lösung $y$ zu finden, die eine unbekannte Zielfunktion $f(y)$ maximiert.

Herausforderungen bei der Optimierung in diesem Kontext sind:

Fehlende Gradienten: Da der Raum diskret ist, existieren keine Gradienten für herkömmliche Optimierungsmethoden.
Mangel an skalaren Belohnungen: Viele existierende Methoden nutzen skalare Bewertungen (Rewards) von externen Modellen oder Verifizierern, um die Suche zu steuern. Für viele Aufgaben sind diese jedoch nicht verfügbar, zu spärlich (sparse) oder unzuverlässig.
Schwierigkeit der Selbstbewertung: LLMs können zwar ihre eigenen Antworten bewerten, aber absolute Scores sind oft schlecht kalibriert und inkonsistent.

Die Autoren schlagen vor, stattdessen paarweise Präferenzen (Pairwise Preferences) zu nutzen. Es ist für ein LLM oft einfacher, zwischen zwei Kandidaten den besseren auszuwählen, als einen absoluten Score zu vergeben oder die optimale Lösung direkt zu generieren.

2. Methodik: DUEL-EVOLVE

DUEL-EVOLVE ist ein evolutionärer Optimierungsalgorithmus, der ausschließlich auf paarweisen Präferenzen basiert, die vom selben LLM generiert werden, das auch die Kandidaten erstellt. Das Verfahren ersetzt externe Belohnungsmodelle durch ein internes „Self-Preference"-System.

Der Algorithmus kombiniert drei Hauptkomponenten:

A. Bayesianisches Bradley-Terry-Modell

Anstatt absolute Scores zu verwenden, vergleicht das LLM Paare von Kandidaten $(y_i, y_j)$ und entscheidet, welches bevorzugt wird. Diese Vergleiche werden in einem Bradley-Terry-Modell aggregiert.

Latente Nutzen: Jeder Kandidat erhält einen latenten Nutzen $\theta_y$ .
Posterior-Inferenz: Basierend auf der Historie der Vergleiche $D_t$ wird eine Posterior-Verteilung über die Nutzen berechnet.
Unsicherheitsbewusstsein: Durch eine Laplace-Approximation um den MAP-Schätzer (Maximum A Posteriori) erhält das System für jeden Kandidaten einen Mittelwert ( $\mu$ ) und eine Varianz ( $\sigma^2$ ). Dies quantifiziert nicht nur die geschätzte Qualität, sondern auch die Unsicherheit dieser Schätzung.

B. Double Thompson Sampling (DTS) für die Ressourcenallokation

Da Vergleiche teuer sind (LLM-Aufrufe), muss die begrenzte Budget effizient eingesetzt werden. DUEL-EVOLVE nutzt Double Thompson Sampling, um zu entscheiden, welche Kandidaten verglichen werden sollen:

Anstatt willkürlich zu vergleichen, werden Kandidaten basierend auf ihrer Wahrscheinlichkeit, optimal zu sein, ausgewählt.
Das System zieht Stichproben aus der Posterior-Verteilung, um potenzielle Optima zu identifizieren.
Vergleiche werden gezielt zwischen vielversprechenden Kandidaten durchgeführt, um die Unsicherheit in den kritischen Bereichen des Suchraums zu reduzieren.

C. Evolutionärer Suchzyklus

Der Algorithmus läuft in einem iterativen Zyklus ab:

Update: Anpassung des Bradley-Terry-Posterior basierend auf neuen Vergleichen.
Evaluation (Selektion): Auswahl von Vergleichspaaren mittels Thompson Sampling. Das LLM fungiert als Richter (Judge).
Evolution (Generierung): Auswahl einer Menge von „Eltern"-Kandidaten (basierend auf ihren geschätzten Nutzen und Unsicherheiten). Das LLM wird mit diesen Eltern und deren geschätzten Scores konditioniert, um neue, verbesserte Kandidaten zu generieren.
Pruning: Kandidaten, deren obere Konfidenzgrenze unter der unteren Grenze des besten Kandidaten liegt, werden aus dem aktiven Suchraum entfernt, bleiben aber in der Historie für die Posterior-Aktualisierung erhalten.

3. Schlüsselbeiträge

Reward-Free Optimierung: DUEL-EVOLVE benötigt kein trainiertes Reward-Modell, keine Ground-Truth-Labels während der Suche und keine handgefertigten Scoring-Funktionen.
Nutzung von Selbst-Präferenzen: Es demonstriert, dass interne paarweise Präferenzen eines LLMs ein starkes Optimierungssignal für diskrete Räume liefern können.
Unsicherheitsgesteuerte Suche: Durch die Kombination von Bayesianischer Inferenz und Thompson Sampling wird die Suche effizient auf vielversprechende Regionen gelenkt, anstatt blind zu suchen.
Skalierbarkeit: Die Methode skaliert mit der Rechenleistung (Test-Time Compute), da mehr Iterationen zu besseren Schätzungen und besseren Lösungen führen.

4. Ergebnisse

Die Methode wurde auf zwei Benchmarks evaluiert:

MathBench (Mathematisches Reasoning):
- DUEL-EVOLVE erreichte eine Genauigkeit von 94,0 %.
- Dies ist eine Steigerung von 20 Prozentpunkten gegenüber den stärksten Baselines (wie Feedback Descent oder Best-of-N).
- Die Methode konvergierte schnell: Innerhalb der ersten 10 Generationen wurden ca. 90 % der Gesamtverbesserung erzielt.
LiveCodeBench (Code-Generierung):
- DUEL-EVOLVE erreichte eine Genauigkeit von 37,4 % (basierend auf dem Bestehen aller versteckten Testfälle).
- Dies ist eine Steigerung von über 12 Prozentpunkten gegenüber vergleichbaren iterativen Methoden (wie Feedback Descent oder GEPA).
- Die Methode übertraf andere iterative Ansätze bereits ab der 5. Generation.

In beiden Fällen übertraf DUEL-EVOLVE nicht-iterative Baselines (wie Zero-Shot CoT, Few-Shot CoT, Self-Consistency) und andere iterative Ansätze signifikant, ohne dabei externe Belohnungssignale zu verwenden.

5. Bedeutung und Fazit

DUEL-EVOLVE adressiert ein fundamentales Problem beim Test-Time-Scaling von LLMs: die Abhängigkeit von externen, oft unzuverlässigen oder nicht verfügbaren Reward-Modellen.

Paradigmenwechsel: Statt nach einem absoluten „Score" zu suchen, nutzt das System relative Vergleiche, die robuster und einfacher für LLMs zu generieren sind.
Effizienz: Durch die Bayesianische Aggregation und die intelligente Allokation der Vergleichsbudgets (DTS) wird die Rechenleistung dort eingesetzt, wo sie den größten Informationsgewinn bringt.
Anwendbarkeit: Die Methode ist besonders für Aufgaben geeignet, bei denen die Bewertung schwierig ist (z. B. komplexe mathematische Beweise oder Code, der versteckte Testfälle bestehen muss), aber die Unterscheidung zwischen zwei Lösungen für ein LLM machbar ist.

Die Ergebnisse zeigen, dass LLMs durch die Nutzung ihrer eigenen Präferenzen in einem evolutionären Rahmen signifikant verbessert werden können, was neue Wege für die Optimierung von LLM-Ausgaben ohne externe Supervision eröffnet. Eine Einschränkung bleibt jedoch, dass systematische Verzerrungen des LLMs (z. B. Präferenz für Selbstvertrauen statt Korrektheit) durch den Prozess verstärkt werden könnten, was zukünftige Forschungsarbeiten erfordert.