Rewriting Pre-Training Data Boosts LLM Performance in Math and Code

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einen jungen, sehr intelligenten Schüler (den KI-Modell) darauf vorbereiten, die schwierigsten Mathe-Aufgaben zu lösen oder perfekten Programmcode zu schreiben. Das Problem ist: Die Bücher, die ihm bisher zur Verfügung standen, waren oft voller Fehler, unleserlicher Handschrift oder enthielten nur halbe Sätze.

Diese Forscher aus Japan haben nun zwei neue, riesige Bibliotheken erstellt, die sie SwallowCode (für Programmieren) und SwallowMath (für Mathematik) nennen. Aber sie haben nicht einfach nur neue Bücher gekauft. Sie haben eine revolutionäre Methode angewandt, die man sich wie einen hochmodernen Lektor und Coach vorstellen kann.

Hier ist die einfache Erklärung, wie das funktioniert:

1. Das Problem: Der "Schrott"-Haufen

Bisher wurden KI-Modelle mit Daten aus dem gesamten Internet trainiert. Das ist wie ein Schüler, der aus einer Müllhalde lernt. Dort gibt es zwar wertvolle Informationen, aber sie sind vermischt mit:

Code, der gar nicht läuft (wie ein Auto ohne Motor).
Matheaufgaben, bei denen die Lösung fehlt oder der Kontext unklar ist.
Schlecht formatierten Texten, die schwer zu lesen sind.

Früher haben Forscher versucht, den Müll einfach wegzuwerfen (Filtern). Das Problem dabei: Man wirft oft auch gute Teile weg, nur weil sie etwas "schmutzig" aussahen.

2. Die Lösung: Der "Transform-and-Retain"-Ansatz (Umwandeln und Behalten)

Statt den Müll wegzuwerfen, haben die Forscher einen KI-Chef-Lektor (ein sehr starkes KI-Modell) eingesetzt, der den Schrott repariert.

Stell dir das wie eine Werkstatt vor:

Schritt 1: Die Inspektion (Filtern). Zuerst wird geprüft: "Ist das Auto überhaupt fähig zu fahren?" (Syntax-Check). Wenn nicht, wird es aussortiert.
Schritt 2: Die Generalüberholung (Linter). Jetzt wird geprüft: "Ist die Lackierung gleichmäßig? Sind die Schrauben richtig festgezogen?" (Stil-Check).代码, die zu viele Warnungen geben, werden aussortiert.
Schritt 3: Der große Umbau (Rewriting). Das ist der magische Teil. Der KI-Lektor nimmt die verbleibenden, etwas kaputten oder unordentlichen Beispiele und schreibt sie um.
- Beispiel Code: Ein verwirrtes Skript wird in eine klare, gut kommentierte, effiziente Anleitung umgewandelt. Es wird so geschrieben, als würde ein erfahrener Mentor einem Anfänger etwas beibringen.
- Beispiel Mathe: Eine unklare Matheaufgabe aus dem Internet wird so umformuliert, dass der Lösungsweg Schritt für Schritt logisch und verständlich ist.

Die Analogie:
Stell dir vor, du hast einen Haufen roher Zutaten (die alten Daten).

Alte Methode: Du wirfst alle Zutaten weg, die nicht perfekt aussehen, und kaufst nur noch teure, fertige Gerichte (synthetische Daten). Das ist teuer und die Vielfalt fehlt.
Neue Methode (Swallow): Du nimmst die rohen Zutaten, schneidest das Verfaulte weg, würzt sie perfekt, kochst sie neu und servierst ein Gourmet-Gericht. Du hast die gleichen Zutaten, aber das Ergebnis ist viel besser.

3. Die Ergebnisse: Der Schüler wird zum Genie

Die Forscher haben getestet, was passiert, wenn sie ihre KI mit diesen "reparierten" Büchern trainieren, im Vergleich zu den alten, ungefilterten Büchern.

Im Programmieren: Die KI wurde deutlich besser darin, Code zu schreiben, der funktioniert. Sie schaffte fast 17 % mehr Aufgaben richtig als vorher.
In der Mathematik: Die KI löste Mathe-Rätsel viel schneller und genauer. Die Trefferquote stieg um über 12 %.

Das Besondere: Sie haben das nicht mit einem "Super-Modell" gemacht, das sowieso alles kann. Sie haben ein durchschnittliches Modell genommen und ihm einfach besseres Essen gegeben. Das Ergebnis: Es wurde viel stärker.

4. Warum ist das wichtig?

Früher mussten Firmen riesige Geheimnisse bewahren, um ihre besten Trainingsdaten zu schützen. Diese Forscher sagen: "Nein, wir machen die Küche offen."
Sie haben den gesamten Prozess, die Werkzeuge und die fertigen "reparierten" Daten kostenlos veröffentlicht. Jeder kann jetzt diese "reparierten" Bücher nutzen, um seine eigene KI zu verbessern, ohne selbst eine ganze Fabrik bauen zu müssen.

Zusammenfassend:
Die Forscher haben entdeckt, dass die Qualität des Trainingsmaterials wichtiger ist als die reine Menge. Anstatt mehr Müll zu fressen, hat ihre KI gelernt, aus dem vorhandenen Müll Gold zu machen, indem sie den Inhalt umschreibt, glättet und perfektioniert. Das ist ein Gewinn für die ganze Welt der KI-Forschung.

Rewriting Pre-Training Data Boosts LLM Performance in Math and Code

1. Das Problem: Der "Schrott"-Haufen

2. Die Lösung: Der "Transform-and-Retain"-Ansatz (Umwandeln und Behalten)

3. Die Ergebnisse: Der Schüler wird zum Genie

4. Warum ist das wichtig?

1. Problemstellung

2. Methodik: Der „Transform-and-Retain"-Ansatz

A. SwallowCode (Code-Datensatz)

B. SwallowMath (Mathematik-Datensatz)

Experimentelles Setup

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Rewriting Pre-Training Data Boosts LLM Performance in Math and Code

1. Das Problem: Der "Schrott"-Haufen

2. Die Lösung: Der "Transform-and-Retain"-Ansatz (Umwandeln und Behalten)

3. Die Ergebnisse: Der Schüler wird zum Genie

4. Warum ist das wichtig?

1. Problemstellung

2. Methodik: Der „Transform-and-Retain"-Ansatz

A. SwallowCode (Code-Datensatz)

B. SwallowMath (Mathematik-Datensatz)

Experimentelles Setup

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

IC3-Evolve: Proof-/Witness-Gated Offline LLM-Driven Heuristic Evolution for IC3 Hardware Model Checking

Structural Segmentation of the Minimum Set Cover Problem: Exploiting Universe Decomposability for Metaheuristic Optimization

To Throw a Stone with Six Birds: On Agents and Agenthood

Position: Science of AI Evaluation Requires Item-level Benchmark Data

Toward Full Autonomous Laboratory Instrumentation Control with Large Language Models