Not all tokens are needed(NAT): token efficient reinforcement learning

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein genialer Koch, der versucht, das perfekte Rezept für einen riesigen, mehrstufigen Kuchen zu lernen. Bisher war der Prozess so: Du backst den ganzen Kuchen (den "Rollout"), probierst ihn am Ende, und wenn er schmeckt, musst du jeden einzelnen Schritt deiner Zubereitung noch einmal durchgehen, um zu überlegen: "Habe ich beim Schneiden der Äpfel zu viel gemacht? War der Ofen zu heiß beim Backen des Bodens? Habe ich beim Dekorieren zu viel Sahne aufgetragen?"

Das Problem ist: Bei langen Rezepten (den sogenannten "Chain-of-Thought" oder Denkprozessen in KI-Modellen) ist dieser Rückblick auf jeden einzelnen Schritt extrem zeitaufwendig und verbraucht viel Energie (Rechenleistung). Oft sind 80 % der Schritte nur langweiliges "Weitermachen" (wie das Schneiden von Äpfeln), während nur ein paar kritische Momente (wie das Hinzufügen des geheimen Gewürzes) wirklich entscheidend für den Erfolg sind.

Die Forscher in diesem Papier haben sich gefragt: Müssen wir wirklich jeden einzelnen Schritt des Rezepts analysieren, um besser zu werden?

Die Antwort lautet: Nein. Sie haben eine Methode namens NAT ("Not All Tokens are Needed" – Nicht alle Wörter sind nötig) entwickelt.

Hier ist die Idee, einfach erklärt mit ein paar Metaphern:

1. Das Problem: Der "Hidden Tax" (Die versteckte Steuer)

Stell dir vor, du lernst Schach. Du spielst ein 50-Züge-Spiel. Wenn du verlierst, musst du normalerweise jeden einzelnen Zug von 1 bis 50 durchgehen, um zu verstehen, wo du falsch lagst. Das kostet Zeit. Bei KI-Modellen ist das noch schlimmer: Je länger das Denk-Experiment (der "Rollout"), desto mehr Speicher und Rechenzeit braucht das Gehirn der KI, um alles nachzuvollziehen. Das bremst das Lernen aus.

2. Die Lösung: NAT – Der clevere Coach

Statt den ganzen Kuchen noch einmal komplett zu probieren, schaut sich NAT nur eine Auswahl von Schritten an. Aber hier ist der Trick: Es ist nicht einfach zufällig, und es ist nicht so, als würde man Teile des Rezepts einfach ignorieren.

Stell dir NAT wie einen sehr cleveren Trainer vor, der dir sagt:
"Heute schauen wir uns nur 50 % deiner Schachzüge an. Aber wir gewichten diese Züge so, als hätten wir alle gesehen."

Das funktioniert so:

Der Zufalls-Trick (Horvitz-Thompson): Wenn der Trainer zufällig einen besonders wichtigen Zug (z. B. Zug 45) auswählt, sagt er: "Okay, da wir diesen Zug nur mit 50 % Wahrscheinlichkeit gesehen haben, müssen wir die Lektion daraus doppelt so stark bewerten."
Das Ergebnis: Statistisch gesehen lernt die KI genau so viel, als hätte sie alle Schritte analysiert, aber sie muss nur die Hälfte der Arbeit leisten.

3. Die zwei Methoden: Wie wählt man die Schritte aus?

Das Papier stellt zwei Arten vor, wie man diese "Ausswahl" trifft:

URS (Uniform Random Sampling) – Der Würfel:
Der Trainer wirft für jeden einzelnen Schritt einen Würfel. Bei "6" schaut er hin, bei "1-5" ignoriert er ihn.
- Nachteil: Die KI muss trotzdem den ganzen Kuchen backen, um zu wissen, was passiert ist. Sie spart also nur beim "Nachdenken" (Rückwärtsrechnen), aber nicht beim Backen selbst.
RPC (Random Prefix Cutting) – Der Schere-Schnitt (Der Gewinner):
Das ist die geniale Idee. Der Trainer schneidet das Rezept einfach an einem zufälligen Punkt ab.
- Beispiel: "Wir schauen uns nur die ersten 30 Schritte an. Alles danach wird abgeschnitten."
- Warum das genial ist: Da die KI (ein sogenanntes "Transformer-Modell") Schritte immer in Reihenfolge verarbeitet (Schritt 1, dann 2, dann 3...), muss sie, wenn sie nur die ersten 30 Schritte analysiert, nicht einmal die restlichen 20 Schritte backen.
- Sie spart also Zeit beim Backen (Vorwärtsrechnung) UND Zeit beim Nachdenken (Rückwärtsrechnung).
- Wichtig: Damit die KI nicht denkt, dass die Welt nach Schritt 30 aufhört, gewichtet der Trainer die ersten 30 Schritte so, als wären sie repräsentativ für den ganzen Kuchen.

4. Was hat das gebracht? (Die Ergebnisse)

Die Forscher haben das an einem KI-Modell getestet, das Matheaufgaben löst (sehr komplexes Denken).

Leistung: Die KI wurde genauso gut wie die, die den ganzen Prozess analysiert hat. Keine Qualitätsverluste!
Geschwindigkeit: Sie war bis zu 29 % schneller.
Speicher: Sie brauchte bis zu 18 % weniger Arbeitsspeicher (GPU-Speicher). Das ist wie ein Auto, das mit weniger Benzin fährt, aber genauso schnell ist.

Zusammenfassung in einem Satz

NAT ist wie ein effizienter Coach, der einem KI-Modell beibringt, dass man nicht jeden einzelnen Schritt eines langen Gedankens analysieren muss, um daraus zu lernen. Durch geschicktes "Zuschneiden" und "Gewichten" der wichtigsten Teile lernt die KI schneller, braucht weniger Energie und wird trotzdem schlauer.

Es ist der Beweis dafür, dass man nicht alles perfekt durchrechnen muss, um großartige Ergebnisse zu erzielen – manchmal reicht es, die richtigen Teile richtig zu verstehen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Reinforcement Learning (RL) ist ein zentraler Treiber für Fortschritte bei Large Language Models (LLMs), insbesondere im Bereich des logischen Denkens (Chain-of-Thought, CoT). Ein Hauptproblem bei der Skalierung von RL auf lange Denkpfade ist jedoch der enorme Rechenaufwand und Speicherbedarf.

Der Engpass: Herkömmliche RL-Verfahren (wie GRPO) führen für jeden generierten Token in einer Trajektorie einen Forward- und Backward-Pass durch. Da die Länge der CoT-Trajektorien zunimmt, führt dies zu einem exponentiell wachsenden Speicherbedarf für Aktivierungen und einer hohen Rechenlast.
Die Ineffizienz: Nicht alle generierten Tokens tragen gleichermaßen zum Lernsignal bei. Viele Tokens sind rein mechanische Fortsetzungen oder Boilerplate-Texte, während nur eine Teilmenge entscheidende Entscheidungspunkte darstellt.
Die Herausforderung: Bestehende Optimierungen konzentrieren sich oft auf die Generierung (Rollouts), aber der Lernschritt (Backpropagation über die gesamte Sequenz) bleibt speicherintensiv und begrenzt die Skalierbarkeit.

2. Methodik: Das NAT-Framework

Die Autoren stellen NAT (Not All Tokens are Needed) vor, ein einheitliches Framework, das den Token-Budget als primären Optimierungsparameter behandelt. Das Ziel ist es, die Policy nur mit einer ausgewählten Teilmenge der generierten Tokens zu aktualisieren, während das Belohnungssignal (Reward) weiterhin auf der vollständigen Antwort berechnet wird.

Kernkomponenten:

Horvitz–Thompson (HT) Schätzung: Um sicherzustellen, dass das Subsampling der Tokens keine Verzerrung (Bias) in den Gradienten erzeugt, wird die HT-Schätzung verwendet. Jeder Token $t$ $t$ erhält eine Aufnahmwahrscheinlichkeit $p_{i,t}$ $p_{i, t}$ . Die Gradienten werden mit dem Kehrwert dieser Wahrscheinlichkeit ($1/p_{i,t}$) gewichtet.
- Theoretische Garantie: Es wird bewiesen, dass dieser gewichtete Schätzer ein erwartungstreuer (unbiased) Schätzer für den Gradienten des vollständigen Sequenz-RL ist.
Token-Auswahlstrategien: NAT wird mit zwei konkreten Schemata implementiert:
1. URS (Uniform Random Sampling): Tokens werden unabhängig und zufällig mit einer festen Wahrscheinlichkeit $p$ $p$ ausgewählt.
  - Nachteil: In kausalen Transformern muss der Forward-Pass dennoch alle vorherigen Tokens verarbeiten, um die Logits für den aktuellen Token zu berechnen. Daher spart URS nur Rechenzeit im Backward-Pass, nicht aber im Forward-Pass oder Speicher.
2. RPC (Random Prefix Cutting): Anstatt einzelne Tokens zufällig zu wählen, wird eine zufällige Länge $L_i$ $L_{i}$ für einen zusammenhängenden Präfix der Antwort gewählt. Nur dieser Präfix wird für den Forward- und Backward-Pass verarbeitet.
  - Vorteil: Da die Länge der verarbeiteten Sequenz tatsächlich verkürzt wird, sinken sowohl die Forward-Compute-Kosten als auch der Aktivierungsspeicher (da Attention-Komplexität quadratisch mit der Länge skaliert).
  - Unterschied zu deterministischem Truncation: Im Gegensatz zu einer festen Abschneidung (z. B. immer die ersten 50%), die systematische Verzerrungen erzeugt (da späte Tokens nie gelernt werden), garantiert RPC durch die zufällige Wahl der Schnittstelle, dass jeder Token eine nicht-null Wahrscheinlichkeit hat, in die Berechnung einbezogen zu werden.

3. Wichtige Beiträge

Einheitliches Framework: NAT bietet einen theoretisch fundierten Ansatz für token-effizientes RL, der Reward-Berechnung und Policy-Optimierung entkoppelt.
Unverzerrtheit durch HT-Korrektur: Der Nachweis, dass HT-Reweightings auch bei Token-Masking zu unverzerrten Gradienten führt, ermöglicht eine statistisch korrekte Optimierung trotz Subsampling.
Praktische Beschleunigung ohne Qualitätsverlust: Die Einführung von RPC als effiziente Methode, die sowohl Forward- als auch Backward-Kosten reduziert, ohne die Lernleistung zu beeinträchtigen.

4. Ergebnisse

Die Experimente wurden auf mathematischen Reasoning-Benchmarks (MATH, AIME24, AIME25) mit den Modellen Qwen2.5-Math-7B und Qwen3-8B durchgeführt.

Leistung (Accuracy):
- NAT (URS & RPC) erreicht eine Leistung, die mit dem vollständigen Token-GRPO vergleichbar ist (überlappende 95%-Konfidenzintervalle).
- Deterministisches Truncation (einfaches Abschneiden der letzten 50%) führt zu signifikant schlechteren Ergebnissen und höherer Varianz, was die Notwendigkeit der HT-Korrektur unterstreicht.
Speichereffizienz:
- RPC reduziert den Spitzen-GPU-Speicherbedarf um ca. 18–20% (z. B. von 47,7 GB auf 39,2 GB bei Qwen3-8B).
- URS zeigt kaum Speicherersparnis, da der Forward-Pass unverändert bleibt.
Trainingszeit:
- RPC verkürzt die Trainingszeit pro Schritt (ohne Inference) um ca. 29% und die Gesamtzeit pro Schritt um ca. 36% bei Qwen3-8B.
- Dies liegt daran, dass weniger Aktivierungen gespeichert und weniger Gradienten berechnet werden müssen.

5. Bedeutung und Fazit

Das Paper zeigt, dass die Annahme, eine vollständige Backpropagation über alle Tokens sei für effektives RL notwendig, widerlegt werden kann.

Paradigmenwechsel: Statt nur die Generierungsgeschwindigkeit zu optimieren, adressiert NAT die Effizienz des Lernprozesses selbst.
Skalierbarkeit: RPC bietet einen orthogonalen Ansatz zu bestehenden System-Optimierungen (wie vLLM oder SGLang) und ermöglicht das Training von Modellen mit sehr langen CoT-Trajektorien, die sonst an Speichergrenzen (OOM) scheitern würden.
Zukunftsperspektive: Die Methode legt den Grundstein für zukünftige Arbeiten, die die Auswahlwahrscheinlichkeiten intelligent (z. B. basierend auf Unsicherheit oder Gradientenstärke) anpassen könnten, um die Varianz weiter zu senken und die Effizienz zu steigern.

Zusammenfassend stellt NAT, insbesondere durch die RPC-Strategie, einen theoretisch fundierten und praktisch hochwirksamen Weg dar, um die Kosten des Reinforcement Learning für komplexe Denkmodelle drastisch zu senken, ohne dabei die Qualität der Ergebnisse zu opfern.

Not all tokens are needed(NAT): token efficient reinforcement learning

1. Das Problem: Der "Hidden Tax" (Die versteckte Steuer)

2. Die Lösung: NAT – Der clevere Coach

3. Die zwei Methoden: Wie wählt man die Schritte aus?

4. Was hat das gebracht? (Die Ergebnisse)

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: Das NAT-Framework

Kernkomponenten:

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers