Generalization of RLVR Using Causal Reasoning as a Testbed

Each language version is independently generated for its own context, not a direct translation.

Das große Bild: Wie man KI beim "Nachdenken" trainiert

Stell dir vor, du hast einen sehr klugen, aber noch etwas ungeschickten Schüler (die KI). Du möchtest ihm beibringen, komplexe Rätsel zu lösen, bei es um Ursache und Wirkung geht (z. B.: "Wenn ich den Schalter umlege, leuchtet dann die Lampe?").

Es gibt zwei Hauptmethoden, um diesen Schüler zu trainieren:

SFT (Supervised Fine-Tuning): Der Lehrer gibt dem Schüler die Lösungen vor. "Hier ist die Frage, hier ist die Antwort. Merk dir das." Der Schüler lernt durch Auswendiglernen und Nachahmen.
RLVR (Reinforcement Learning with Verifiable Rewards): Der Lehrer gibt dem Schüler eine Aufgabe und sagt: "Versuch es selbst! Wenn du richtig liegst, bekommst du einen Punkt. Wenn du falsch liegst, bekommst du keinen." Der Schüler muss selbst herausfinden, wie er zum Ziel kommt, und lernt durch Versuch und Irrtum.

Die Forscher wollten herausfinden: Welche Methode macht den Schüler besser im Lösen von neuen, noch nie gesehenen Rätseln?

Der Test: Ein Labyrinth aus Kausalitäten

Um das zu testen, haben die Forscher ein spezielles "Spielfeld" gebaut: Kausale Graphen.
Stell dir das wie ein riesiges, verschlungenes Netz von Dominosteinen vor.

Stein A fällt -> Stein B fällt -> Stein C fällt.
Aber manchmal gibt es auch Querverbindungen.

Die Aufgabe der KI war es, Fragen zu diesem Netz zu beantworten:

Beobachtung: "Was passiert mit Stein C, wenn Stein A umfällt?" (Einfach beobachten).
Eingriff: "Was passiert mit Stein C, wenn wir Stein A gewaltsam umstoßen, auch wenn er eigentlich nicht fallen sollte?" (Das ist schwieriger, denn man muss die alten Regeln ignorieren).
Gegenfaktisch: "Was wäre passiert, wenn Stein A nicht umgefallen wäre, obwohl er es tat?" (Das ist das aller-schwierigste Rätsel, eine Art "Was-wäre-wenn"-Reise in eine alternative Welt).

Die wichtigsten Entdeckungen (in einfachen Worten)

1. Der "Schüler" muss schon etwas können, bevor er trainiert wird

Das ist vielleicht die wichtigste Erkenntnis: RLVR funktioniert nur, wenn der Schüler schon ein gewisses Grundverständnis hat.

Der kleine Schüler (3 Milliarden Parameter): Wenn man einen sehr kleinen, noch unreifen Schüler mit RLVR trainiert, passiert oft das Gegenteil von dem, was man will. Er versucht, die Rätsel zu lösen, scheitert aber so oft, dass er frustriert aufgibt. Statt zu lernen, wie man die Dominosteine analysiert, lernt er einfach nur, die Antworten zu raten oder zu erraten. Er lernt nicht, wie man denkt, sondern nur, was man sagen muss, um Punkte zu bekommen.
Der große Schüler (7 oder 32 Milliarden Parameter): Wenn der Schüler schon ein gutes Grundverständnis hat (er kann die Dominosteine schon grob verstehen), dann ist RLVR ein Wundermittel. Er lernt, seine Denkstrategie zu verbessern. Er wird nicht nur besser im Raten, sondern lernt, die Schritte logisch aufzubauen.

Die Analogie: Wenn du jemandem, der noch nie Tennis gespielt hat, sagst "Gewinne den Ball", wird er wahrscheinlich nur wild herumlaufen. Wenn du aber jemandem sagst, der schon den Schläger halten kann, "Gewinne den Ball", wird er lernen, wie man den Schlag perfektioniert.

2. RLVR ist besser für "schwierige" Rätsel

Wenn der Schüler groß genug ist, um mit RLVR zu trainieren, wird er besonders gut darin, komplexe Rätsel zu lösen.

SFT (Auswendiglernen) ist gut für einfache, bekannte Muster.
RLVR (Selbstfinden) ist besser, wenn das Rätsel neu ist oder sehr viele Schritte hat. Der Schüler lernt eine Strategie: "Ich muss erst diesen Stein prüfen, dann diesen, und erst dann das Ergebnis berechnen." Er lernt, das Problem Schritt für Schritt zu zerlegen (im Fachjargon: "inkrementelle Marginalisierung").

3. Fehler sind der Schlüssel zum Erfolg

Die Forscher haben genau hingeschaut, wo die Schüler Fehler machen.

Vor dem Training machten große Schüler oft logische Fehler (z. B. "Ich nehme an, diese beiden Steine hängen nicht zusammen, obwohl sie es tun").
Nach dem RLVR-Training machten sie diese logischen Fehler viel seltener. Sie lernten, die Abhängigkeiten im Netz korrekt zu sehen.
Bei kleinen Schülern hingegen hörten sie auf, überhaupt zu versuchen, die Logik zu verstehen, und gaben einfach eine Antwort ab.

Fazit: Wann lohnt sich der Aufwand?

Die Studie sagt uns: Reinforcement Learning (RLVR) ist ein mächtiges Werkzeug, aber kein Zauberstab.

Es funktioniert nicht, wenn das Modell zu klein oder zu dumm ist, um die Aufgabe überhaupt zu verstehen. Dann lernt es nur Tricks, keine echten Fähigkeiten.
Es funktioniert hervorragend, wenn das Modell schon eine gute Basis hat. Dann verwandelt es sich von einem "Auswendiglerner" in einen echten "Denker", der komplexe Ursache-Wirkungs-Zusammenhänge verstehen und auf neue Situationen übertragen kann.

Kurz gesagt: Man kann einem Kind nicht beibringen, ein Auto zu fahren, indem man es einfach nur in den Fahrstuhl setzt und sagt "Fahr los". Man braucht erst einen Führerschein (Grundverständnis), und dann hilft das Üben mit Feedback (RLVR), um ein Meisterfahrer zu werden. Einem Kind, das noch nicht einmal die Pedale kennt, bringt das Üben nichts – es wird nur frustriert.

Each language version is independently generated for its own context, not a direct translation.

Titel: Generalisierung von RLVR unter Verwendung von kausaler Schlussfolgerung als Testfeld

Autoren: Brian Lu, Hongyu Zhao, Shuo Sun, Hao Peng, Rui Ding, Hongyuan Mei
Veröffentlicht: ICLR 2026

1. Problemstellung

Reinforcement Learning with Verifiable Rewards (RLVR) hat sich als vielversprechendes Paradigma für das Nachtrainieren (Post-Training) von Large Language Models (LLMs) in komplexen reasoning-Aufgaben etabliert. Bisherige Arbeiten haben RLVR erfolgreich in Bereichen wie Mathematik, formaler Beweisführung und Code-Generierung eingesetzt.

Das zentrale ungelöste Problem ist jedoch, unter welchen Bedingungen RLVR eine robuste Generalisierung über die Trainingsdaten hinaus ermöglicht. Während Supervised Fine-Tuning (SFT) oft ausreicht, um Muster zu memorieren, ist unklar, ob RLVR Modelle tatsächlich befähigt, neue, strukturell komplexere oder andersartige Probleme zu lösen.

Um dies zu untersuchen, wählen die Autoren kausale Inferenz als Testfeld. Kausale Schlussfolgerung bietet eine strukturierte Hierarchie (die „Causal Ladder" nach Pearl):

Assoziation (Beobachtung): $P(Y|X)$
Intervention (Eingriff): $P(Y|do(X))$
Gegenfaktisch (Hypothese): $P(Y_{do(X)}|X)$

Diese Ebenen erfordern unterschiedliche Schlussfolgerungsmodi (Abduktion, Deduktion) und bieten natürliche Achsen für die Messung von Generalisierung (innerhalb einer Ebene vs. über Ebenen hinweg) sowie strukturelle Komplexität (Größe des relevanten Subgraphen).

2. Methodik

Datensatz und Aufgabenstellung (RLCausal)

Die Autoren konstruierten einen neuen Datensatz namens RLCausal, der sich von bestehenden Benchmarks (wie CLadder) unterscheidet:

Struktur: Statt natürlicher Sprachbeschreibungen werden vollständig parametrisierte strukturelle kausale Modelle (SCMs) als Eingabe bereitgestellt (Variablen, Graphstruktur, bedingte Wahrscheinlichkeitstabellen/CPTs).
Komplexität: Die Graphen haben 10 Knoten und wurden zufällig generiert, um eine größere strukturelle Vielfalt als manuell kuratierte Topologien zu bieten.
Aufgabe: Das Modell muss basierend auf dem Graphen und einer Query (Assoziation, Intervention oder Gegenfaktisch) die marginale Verteilung einer Zielvariable berechnen.
Ground Truth: Die korrekten Antworten werden exakt mittels Variablenelimination berechnet.

Trainingsansätze

Die Studie vergleicht zwei Fine-Tuning-Methoden an der Basisarchitektur Qwen-2.5-Instruct (Modelle mit 3B, 7B und 32B Parametern):

Supervised Fine-Tuning (SFT): Das Modell lernt direkt, die korrekte Wahrscheinlichkeitsverteilung auszugeben, ohne zwingend einen Lösungsweg zu generieren.
Reinforcement Learning with Verifiable Rewards (RLVR): Das Modell generiert einen „Chain-of-Thought" (Schritt-für-Schritt-Reasoning) und eine finale Antwort.
- Reward-Funktion: Eine Kombination aus Format-Genauigkeit (korrekte Extraktion der Antwort) und inhaltlicher Genauigkeit (Total Variation Distance zwischen vorhergesagter und wahrer Verteilung).
- Algorithmen: Varianten von GRPO und DAPO wurden verwendet.

Experimentelles Design

Variablen: Modellgröße (3B, 7B, 32B) und die Ebene der Query, auf der trainiert wurde (Assoziation, Intervention, Gegenfaktisch).
Evaluation: Messung der Genauigkeit bei:
- Within-Level Generalization: Training und Test auf derselben Ebene.
- Across-Level Generalization: Training auf einer Ebene, Test auf einer anderen (z. B. Training auf Assoziation, Test auf Intervention).

3. Wichtige Beiträge und Erkenntnisse

A. Generalisierung: RLVR vs. SFT

Modellgröße ist entscheidend: RLVR übertrifft SFT signifikant nur bei Modellen ab 7B Parametern. Bei 3B-Modellen scheitert RLVR oft; diese Modelle degenerieren nach dem Training dazu, Antworten direkt zu raten, anstatt zu reasoning.
Within-Level: RLVR zeigt bei 7B+ Modellen eine stärkere Generalisierung auf Assoziations- und Interventionsfragen als SFT.
Across-Level: RLVR ermöglicht eine bessere Übertragung des Wissens auf andere Ebenen der kausalen Hierarchie als SFT, ebenfalls nur bei ausreichend großen Modellen (≥7B).
Gegenfaktische Fragen: RLVR scheitert bei allen Modellgrößen auf der Gegenfaktischen Ebene, da diese die komplexeste Schlussfolgerung (Abduktion gefolgt von Deduktion) erfordert, die die Modelle in ihrer aktuellen Form nicht beherrschen.

B. Die Rolle der initialen Reasoning-Kompetenz

Ein zentrales Ergebnis ist, dass der Erfolg von RLVR stark von der initialen Reasoning-Fähigkeit des Basismodells abhängt („Cold Start Problem"):

3B-Modelle haben vor dem Fine-Tuning keine ausreichende Fähigkeit zur expliziten Marginalisierung; RLVR kann diese Lücke nicht schließen.
32B-Modelle zeigen bereits im Zero-Shot-Modus (ohne Fine-Tuning) eine hohe Reasoning-Kompetenz. RLVR verbessert diese Fähigkeiten weiter, während SFT bei großen Modellen manchmal sogar schlechter abschneidet als das reine Zero-Shot-Reasoning.

C. Mechanismus der Verbesserung

Die Analyse der Reasoning-Traces (mittels eines LLM-Judges) zeigt, wie RLVR funktioniert:

Strategie-Shift: RLVR verschiebt die Strategie von „Brute-Force"-Summation (die fehleranfällig ist) hin zu inkrementeller Marginalisierung (schrittweises Aussummieren von Variablen), was bei komplexeren Abfragen besonders effektiv ist.
Fehlerreduktion: RLVR reduziert signifikant:
- Abstrakte Ableitungsfehler (z. B. falsche Unabhängigkeitsannahmen, Verwechslung von Intervention und Beobachtung).
- Berechnungsfehler (obwohl diese bei weiten nicht vollständig eliminiert werden).
Präzision: RLVR-Modelle liefern präzisere Ergebnisse (niedrigere Total Variation Distance) als SFT-Modelle, die oft nur annähernd richtige Lösungen finden.

4. Ergebnisse im Detail

Skalierung: Die Leistung von Reasoning-Modellen skaliert stärker mit der Modellgröße als die von reinen Vorhersagemodellen.
Komplexität: RLVR-Modelle schneiden bei komplexen Abfragen (große relevante Subgraphen) deutlich besser ab als SFT-Modelle, die bei einfachen Aufgaben oft konkurrenzfähig sind.
Gegenfaktische Ebene: Selbst mit Hinweisen (Twin-Network-Graphen im Prompt) konnten Modelle keine echten Lösungen für Gegenfaktische Fragen generieren. Dies deutet darauf hin, dass die Anforderung an Abduktion und Marginalisierung in diesem formalen Setting eine fundamentale Grenze aktueller LLMs darstellt.

5. Bedeutung und Fazit

Das Paper liefert wichtige Erkenntnisse für das Verständnis von RLVR:

Bedingte Wirksamkeit: RLVR ist kein Allheilmittel. Es funktioniert nur dann gut, wenn das Basismodell bereits eine gewisse Grundkompetenz im Reasoning besitzt. Es „verfeinert" bestehende Fähigkeiten, statt sie aus dem Nichts zu erschaffen.
Strategielernen: RLVR lehrt Modelle nicht nur die richtige Antwort, sondern verbessert die Strategie zur Problemlösung (z. B. inkrementelle Marginalisierung) und reduziert systematische logische Fehler.
Testfeld: Die Verwendung von kausaler Inferenz als Testfeld hat sich als effektiv erwiesen, um subtile Unterschiede zwischen SFT und RL aufzudecken, die in einfacheren Domänen (wie reiner Mathematik) möglicherweise weniger sichtbar sind.

Zusammenfassend zeigt die Studie, dass RLVR die Generalisierungsfähigkeit von LLMs in formalen Reasoning-Aufgaben signifikant steigern kann, aber dies eine ausreichende initiale Modellgröße und Reasoning-Kompetenz voraussetzt. Für sehr kleine Modelle oder extrem komplexe logische Sprünge (wie Gegenfaktisches Denken) bleiben derzeit noch erhebliche Lücken bestehen.