NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Lernen nur durch „Richtig" ist zu wenig

Stell dir vor, du möchtest ein Genie in Mathe werden.
Bisher gab es zwei Hauptwege, wie man Künstliche Intelligenz (KI) dazu bringt, Mathe zu lernen:

Der Lehrer-Weg (Supervised Learning): Der Lehrer gibt dir die Aufgaben und die korrekten Lösungen vor. Du lernst, indem du diese Lösungen auswendig lernst und nachmachst. Das Problem: Wenn du einen Fehler machst, wirft der Lehrer den Zettel weg. Du lernst nicht, warum du falsch lagst, sondern nur, wie die richtige Antwort aussieht.
Der Trial-and-Error-Weg (Reinforcement Learning): Du löst die Aufgaben selbst. Ein Computer-Verifizierer sagt dir nur: „Richtig" oder „Falsch". Wenn es falsch ist, versuchst du es nochmal. Das ist wie ein Video-Spiel, bei dem du durch viele Versuche lernst, wo die Fallen sind. Dieser Weg ist sehr mächtig, aber er braucht viel Rechenleistung und ist komplex.

Bis jetzt glaubten die Forscher: Um aus Fehlern zu lernen und sich selbst zu verbessern, muss man den zweiten Weg (Reinforcement Learning) nehmen. Der erste Weg (nur richtige Lösungen zeigen) galt als zu starr.

Die neue Idee: NFT – Lernen aus dem „Falsch"

Die Autoren dieses Papiers haben eine geniale Idee: Warum müssen wir den „Fehler-Weg" so kompliziert machen? Wir können ihn auch mit dem einfachen „Lehrer-Weg" lösen!

Sie nennen ihre Methode NFT (Negative-aware Fine-Tuning). Das hat nichts mit digitalen Kunstwerken zu tun, sondern steht hier für „Fehlerbewusstes Fein-Tuning".

Die Metapher: Der Detektiv und der Spion

Stell dir die KI als einen Detektiv vor, der einen Fall lösen muss.

Der alte Weg (RFT): Der Detektiv bekommt nur Fotos von erfolgreichen Verbrechen, die gelöst wurden. Er lernt nur, wie ein erfolgreicher Täter aussieht. Wenn er selbst einen Fehler macht, wird ihm der Zettel weggenommen. Er weiß nicht, dass er falsch lag.
Der neue Weg (NFT): Der Detektiv bekommt Fotos von erfolgreichen Fällen, aber auch Fotos von seinen eigenen Fehlschlägen.
- Normalerweise würde man sagen: „Fehler sind schlecht, wirf sie weg."
- NFT sagt aber: „Halt! Wenn der Detektiv einen Fehler macht, können wir daraus lernen, wie ein Spion (der Falsche) denkt."

Die KI baut sich im Kopf ein imaginäres Modell des Spions (den „negativen Agenten"). Sie lernt nicht nur, wie man richtig ist, sondern simuliert auch, wie der falsche Weg aussieht. Indem sie den Spion genau analysiert, versteht sie besser, wie sie selbst nicht sein darf.

Wie funktioniert das technisch (ganz einfach)?

Stell dir vor, die KI ist ein Schauspieler.

Positiv: Sie spielt die Rolle des Helden (die richtige Antwort).
Negativ: Sie spielt die Rolle des Bösewichts (die falsche Antwort).

Bisher hat man dem Schauspieler nur die Szenen des Helden gezeigt. Bei NFT zeigt man ihm beide.
Das Geniale ist: Die KI benutzt denselben Schauspieler für beide Rollen.
Wenn sie lernt, wie der Bösewicht (Fehler) denkt, muss sie automatisch verstehen, wie der Held (richtige Antwort) anders sein muss. Es ist wie ein Spiegel: Wenn du weißt, wie du dich nicht bewegen sollst, weißt du automatisch, wie du dich bewegen musst, um das Gegenteil zu tun.

Die überraschende Entdeckung

Die Forscher haben etwas Unerwartetes herausgefunden:
Wenn man die KI genau so trainiert, wie sie es gerade tut (ohne dass sie sich von alten Daten abwendet), ist NFT mathematisch identisch mit den besten Reinforcement-Learning-Methoden (wie GRPO).

Das ist so, als ob man herausfände, dass Laufen und Schwimmen eigentlich genau die gleichen Muskeln benutzen, wenn man es genau richtig macht.

Früher dachte man: „Laufen (RL) ist für Fortgeschrittene, Schwimmen (SL) ist für Anfänger."
Jetzt weiß man: „Wenn du beim Schwimmen richtig atmest, bist du genauso schnell wie beim Laufen."

Warum ist das wichtig?

Einfacher: Man braucht keine komplexen Belohnungssysteme oder zwei verschiedene Modelle. Ein einfaches Modell reicht.
Effizienter: Die KI lernt aus ihren Fehlern, ohne dass man sie dafür bestrafen muss. Sie reflektiert einfach über das, was schiefging.
Leistungsstark: In Tests (besonders bei Mathe-Aufgaben) hat diese einfache Methode genauso gut oder sogar besser abgeschnitten als die komplizierten Reinforcement-Learning-Methoden.

Zusammenfassung in einem Satz

NFT ist eine Methode, bei der eine KI lernt, ihre eigenen Fehler nicht wegzuwerfen, sondern sie als Spiegel zu nutzen, um sich selbst zu verbessern – und das funktioniert genauso gut wie die komplizierten Methoden, die bisher als „besser" galten.

Es ist der Beweis, dass man nicht immer einen strengen Trainer braucht, um zu lernen; manchmal reicht es, sich selbst ehrlich anzuschauen, wo man hinfällt, und daraus zu lernen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Fähigkeit von Large Language Models (LLMs) zum mathematischen Schlussfolgern hat sich in jüngster Zeit stark verbessert, primär durch den Wechsel von reinem Imitationslernen (Supervised Learning, SL) hin zu selbstverbessernden Paradigmen, die auf Verifizierung basieren.

Der aktuelle Stand: Reinforcement Learning (RL) hat sich als dominierender Ansatz für verifizierungsgesteuertes Training etabliert. Algorithmen wie PPO und GRPO nutzen binäre Verifizierungssignale (richtig/falsch), um Modelle durch Belohnungsoptimierung zu verbessern.
Die Herausforderung: Supervised Learning (SL) wird für solche Aufgaben oft als ungeeignet angesehen, da es traditionell darauf ausgelegt ist, positive Referenzantworten zu memorieren. Herkömmliche SL-Ansätze wie Rejection Fine-Tuning (RFT) werfen generierte negative Antworten (Fehler) einfach weg und nutzen sie nicht für das Lernen. Dies verhindert, dass das Modell aus seinen eigenen Fehlern reflektiert und lernt – eine Fähigkeit, die als entscheidend für allgemeine Intelligenz gilt.
Die Frage: Kann selbstreflektives Lernen, bei dem das Modell aus negativen Feedback-Signalen lernt, auch innerhalb des SL-Paradigmas erreicht werden, ohne auf komplexe RL-Methoden zurückzugreifen?

2. Methodik: Negative-aware Fine-Tuning (NFT)

Die Autoren schlagen NFT vor, einen überwachenden Lernansatz, der es LLMs ermöglicht, aus ihren eigenen negativen Generierungen zu lernen, ohne externe Lehrer oder RL-Verstärkung.

Kernkonzept:
Anstatt negative Antworten zu verwerfen, konstruiert NFT eine implizite negative Policy ( $\pi^-$ ), die diese Fehler modelliert.

Theoretische Grundlage: Basierend auf dem Bayes'schen Satz können die Verteilung der positiven Antworten ( $\pi^+$ ) und die der negativen Antworten ( $\pi^-$ ) als lineare Kombination der ursprünglichen Generierungs-Policy ( $\pi_{old}$ ) ausgedrückt werden:
$\pi_{old}(a|q) = r_q \cdot \pi^+(a|q) + (1 - r_q) \cdot \pi^-(a|q)$
Hierbei ist $r_q$ die Korrektheitsrate für eine Frage $q$ .
Implizite Negative Policy: Da $\pi_{old}$ bekannt ist und $r_q$ geschätzt werden kann, lässt sich $\pi^-$ direkt durch $\pi^+$ ausdrücken:
$\pi^-_\theta(a|q) = \frac{\pi_{old}(a|q) - r_q \cdot \pi^+_\theta(a|q)}{1 - r_q}$
Optimierungsziel: Das Ziel ist es, die positive Policy $\pi^+_\theta$ $π_{θ}^{+}$ so zu optimieren, dass sie die wahre positive Verteilung $\pi^+$ $π^{+}$ annähert. NFT führt dies durch Maximum-Likelihood-Schätzung (MLE) auf beiden Datensätzen durch:
1. Positive Daten: Standard-Maximum-Likelihood auf korrekten Antworten.
2. Negative Daten: Maximierung der Likelihood der impliziten negativen Policy. Da $\pi^-_\theta$ eine Funktion von $\pi^+_\theta$ ist, führt das Trainieren auf negativen Daten direkt zu einer Optimierung von $\pi^+_\theta$ in die entgegengesetzte Richtung (d.h., die Wahrscheinlichkeit für falsche Antworten wird verringert).

Praktische Umsetzung (Algorithmus):

Token-Level-Loss: Um Varianz zu reduzieren, wird der Loss auf Token-Ebene summiert.
Clipping: Um numerische Instabilitäten zu vermeiden (da der Logarithmus eines negativen Arguments undefiniert ist), wird ein "Straight-Through"-Clipping für das Verhältnis der Likelihoods bei negativen Antworten angewendet.
Prompt-Gewichtung: Schwierige Fragen (niedrige Korrektheitsrate $r_q$ ) erhalten ein höheres Gewicht, um den Lernprozess zu fokussieren.

3. Schlüsselbeiträge und Theoretische Erkenntnisse

Überwindung des SL-RL-Gegensatzes: Die Arbeit widerlegt die Annahme, dass selbstreflektives Lernen exklusiv RL vorbehalten ist. NFT zeigt, dass SL mit negativen Daten denselben Effekt erzielen kann.
Äquivalenz von NFT und GRPO: Ein zentrales theoretisches Ergebnis ist die Feststellung, dass NFT und GRPO (Group Relative Policy Optimization) unter strikten On-Policy-Bedingungen äquivalent sind.
- Trotz unterschiedlicher theoretischer Herleitungen (SL vs. RL) führen beide Algorithmen zu identischen Gradienten, wenn die aktuelle Policy der alten Policy entspricht ( $R_t^\theta = 1$ ).
- Der "Advantage Normalization"-Mechanismus von GRPO ist in der NFT-Loss-Funktion implizit enthalten.
- Der Hauptunterschied liegt nur im Off-Policy-Verhalten (Clipping-Strategien), wenn die Policy zu stark von der alten abweicht.
Effizienz: NFT benötigt nur eine einzige Modellkopie im Speicher (im Gegensatz zu RL, das oft eine Referenz-Policy benötigt), was den Speicherverbrauch senkt.

4. Ergebnisse

Die Autoren evaluierten NFT an 7B- und 32B-Modellen (Qwen2.5-Math) auf mehreren mathematischen Benchmarks (AIME, MATH500, OlympiadBench, etc.).

Leistung: NFT übertrifft konsequent reine SL-Baselines wie RFT (Rejection Fine-Tuning) und erreicht oder schlägt sogar führende RL-Algorithmen wie GRPO und DAPO.
- Auf dem 7B-Modell erreicht NFT-7B-Zero eine Leistung, die mit spezialisierten Zero-Shot-Modellen konkurriert.
- Auf dem 32B-Modell zeigt NFT eine signifikante Verbesserung gegenüber RFT und ist mit DAPO vergleichbar.
Rolle negativer Daten: Der Leistungsunterschied zwischen RFT und NFT (bzw. RL) ist direkt auf die Nutzung negativer Daten zurückzuführen.
- In 32B-Experimenten stammt ca. 80 % des Gewinns aus dem Lernen an positiven Daten (RFT), aber die verbleibenden 20 % durch negative Daten sind entscheidend, um die Spitze zu erreichen.
- NFT zeigt eine höhere Entropie während des Trainings als RFT, was auf eine bessere Exploration und weniger vorzeitiges Kollabieren hindeutet.
Skalierung: Der Vorteil von NFT gegenüber reinem RFT wird bei größeren Modellen (32B) noch deutlicher, was darauf hindeutet, dass die Fähigkeit, aus Fehlern zu reflektieren, mit der Modellgröße an Bedeutung gewinnt.

5. Bedeutung und Fazit

Diese Arbeit stellt einen wichtigen Meilenstein in der Forschung zu LLMs dar, da sie die theoretische und praktische Lücke zwischen Supervised Learning und Reinforcement Learning in binären Feedback-Systemen schließt.

Paradigmenwechsel: Sie zeigt, dass komplexe RL-Frameworks nicht zwingend erforderlich sind, um verifizierungsgesteuertes Lernen zu erreichen. Ein gut designedes SL-Verfahren (NFT) kann denselben mathematischen Effekt erzielen.
Praktische Implikationen: NFT bietet eine speichereffiziente Alternative zu RL, die dennoch die Vorteile des Lernens aus Fehlern nutzt. Dies ist besonders relevant für Szenarien, in denen Ressourcen knapp sind oder die Stabilität von RL-Algorithmen (wie PPO/GRPO) schwer zu handhaben ist.
Zukunftsausblick: Die Erkenntnis, dass SL und RL in diesem Kontext äquivalent sein können, eröffnet neue Wege für die Entwicklung von Trainingsalgorithmen, die die Stärken beider Welten kombinieren, ohne die Komplexität von RL zu erben.

Zusammenfassend beweist NFT, dass Selbstverbesserung durch Reflexion über Fehler nicht exklusiv ein RL-Phänomen ist, sondern durch intelligente Nutzung negativer Daten im Rahmen des überwachten Lernens effektiv realisiert werden kann.

NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

Das große Problem: Lernen nur durch „Richtig" ist zu wenig

Die neue Idee: NFT – Lernen aus dem „Falsch"

Die Metapher: Der Detektiv und der Spion

Wie funktioniert das technisch (ganz einfach)?

Die überraschende Entdeckung

Warum ist das wichtig?

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: Negative-aware Fine-Tuning (NFT)

3. Schlüsselbeiträge und Theoretische Erkenntnisse

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics