Do Post-Training Algorithms Actually Differ? A Controlled Study Across Model Scales Uncovers Scale-Dependent Ranking Inversions

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein Koch, der versucht, das perfekte Rezept für einen Kuchen zu finden. In der Welt der Künstlichen Intelligenz (KI) gibt es derzeit Dutzende von neuen „Rezepten" (Algorithmen), die versprechen, aus einem rohen Teig (einem vortrainierten Modell) einen köstlichen, menschlich ansprechenden Kuchen (ein hilfreiches KI-Modell) zu backen.

Die Forscher aus diesem Papier haben sich gefragt: Welches Rezept ist wirklich das beste?

Bisher war die Antwort verwirrend. Jeder Koch (Forscher) hat sein Rezept mit einem anderen Ofen, anderen Zutaten und einem anderen Thermometer getestet. Man konnte also nicht wirklich vergleichen, ob das neue Rezept wirklich besser ist oder nur der Ofen heißer war.

Diese Forscher haben nun eine riesige, kontrollierte „Kochshow" organisiert. Hier ist die einfache Erklärung ihrer wichtigsten Entdeckungen, mit ein paar kreativen Vergleichen:

1. Die Größe des Ofens ist wichtiger als das Rezept

Das überraschendste Ergebnis ist, dass die Größe des Modells (wie groß der Ofen ist) viel wichtiger ist als die Art des Rezepts.

Der kleine Ofen (kleine KI): Bei kleinen KIs (z. B. 1,5 Milliarden Parameter) gewinnt ein Rezept namens SGRPO (eine Art „Online-Lernen", bei dem die KI während des Backens ständig probiert und korrigiert). Sie ist wie ein junger, hyperaktiver Koch, der durch ständiges Ausprobieren schnell lernt.
Der riesige Ofen (große KI): Wenn man das gleiche Experiment mit einem riesigen Modell (7 Milliarden Parameter) macht, passiert etwas Magisches: Das Rezept, das bei der kleinen KI am schlechtesten war (SimPO), wird plötzlich zum Gewinner!
Die Analogie: Stellen Sie sich vor, Sie haben ein Rezept für einen einfachen Muffin. Bei einem kleinen Herd funktioniert es gut. Aber wenn Sie in einem riesigen Industrietrockner backen, funktioniert ein völlig anderes Rezept (das für den Muffin eigentlich zu trocken war) plötzlich perfekt, weil der große Ofen die Feuchtigkeit anders verteilt. Die Forscher nennen dies eine „Rangfolge-Umkehrung": Was bei kleinen KIs gewinnt, verliert bei großen, und umgekehrt.

2. Die Suche nach dem „perfekten Gewürz" war umsonst

Es gibt über 20 Varianten des beliebtesten Rezepts (DPO). Forscher haben sich gedacht: „Vielleicht hilft es, wenn wir ein wenig mehr Zimt hinzufügen oder den Zucker anders mischen?"

Das Ergebnis: Fast alle diese 20 Varianten waren genau so gut wie das Original. Kein einziges „neues Gewürz" hat den Kuchen wirklich besser gemacht.
Der einzige Ausreißer: Eine Variante (SimPO) war sogar deutlich schlechter – wie wenn man versehentlich Salz statt Zucker in den Kuchen rührt.
Die Lehre: Die Forscher sagen: „Hört auf, ständig neue Gewürzmischungen zu erfinden!" Der Unterschied zwischen den Rezepten ist winzig (kaum 1 %). Es bringt viel mehr, einfach mehr Mehl zu verwenden (das Modell größer zu machen) oder bessere Zutaten zu kaufen (bessere Trainingsdaten).

3. Der Kuchen schmeckt nur dort, wo er gebacken wurde

Ein weiterer wichtiger Punkt: Die KIs waren auf Matheaufgaben (GSM8K) trainiert. Was passiert, wenn man sie nach anderen Dingen fragt, die sie nicht gelernt haben?

Das Ergebnis: Auf den Matheaufgaben gab es riesige Unterschiede zwischen den Rezepten (bis zu 19 %). Aber auf allgemeinen Fragen (wie „Was ist ein Hund?" oder „Erzähl mir eine Geschichte") waren alle KIs fast gleich gut.
Die Analogie: Es ist wie ein Sportler, der speziell für das 100-Meter-Sprint trainiert wurde. Im Sprint ist er Weltklasse. Aber wenn man ihn bittet, einen Marathon zu laufen oder Schach zu spielen, ist er nicht besser als jeder andere normale Mensch. Die Wahl des Trainings-Rezepts macht also nur einen Unterschied, wenn man genau das macht, wofür man trainiert hat.

4. Die Hierarchie des Erfolgs

Die Forscher haben eine Art „Gewichtung" für den Erfolg erstellt. Wenn Sie ein KI-Modell verbessern wollen, sollten Sie Ihre Energie in dieser Reihenfolge investieren:

Größe des Modells (Der Ofen): Das bringt den größten Unterschied (ca. 50 % mehr Erfolg).
Die Trainingsmethode (Das Grundrezept): Online vs. Offline (ca. 10 % Unterschied).
Die Verlustfunktion (Die Gewürzmischung): Die feinen Details des Rezepts (nur ca. 1 % Unterschied).

Zusammenfassung für den Alltag

Wenn Sie also ein KI-Modell entwickeln wollen, hören Sie auf, nach dem „geheimen Gewürz" zu suchen, das alle anderen übertreffen soll.

Wenn Sie eine kleine KI haben: Nutzen Sie einfache Methoden wie SFT (Supervised Fine-Tuning) oder Online-RL.
Wenn Sie eine große KI haben: Nutzen Sie Methoden wie SimPO, die bei großen Modellen glänzen.
Wichtig: Vergessen Sie nicht, dass die Ergebnisse, die Sie bei kleinen Modellen sehen, oft nicht auf große Modelle übertragbar sind. Ein Rezept, das im kleinen Testlabor funktioniert, kann im großen Maßstab katastrophal sein – und umgekehrt.

Die Forscher haben all ihre Rezepte, Daten und Ergebnisse als „lebendes Benchmark" veröffentlicht, damit die ganze Gemeinschaft endlich aufhört, im Dunkeln zu tappen und stattdessen auf das Wesentliche (Größe und Daten) fokussiert.

Do Post-Training Algorithms Actually Differ? A Controlled Study Across Model Scales Uncovers Scale-Dependent Ranking Inversions

1. Die Größe des Ofens ist wichtiger als das Rezept

2. Die Suche nach dem „perfekten Gewürz" war umsonst

3. Der Kuchen schmeckt nur dort, wo er gebacken wurde

4. Die Hierarchie des Erfolgs

Zusammenfassung für den Alltag

1. Problemstellung

2. Methodik: Das OXRL-Framework

3. Wichtige Ergebnisse

A. Skalierungsabhängige Ranking-Inversionen

B. DPO-Varianten: Keine signifikanten Gewinner

C. Aufgaben-spezifische Hebelwirkung (Leverage)

D. Hierarchie der Hebelwirkung (Leverage Hierarchy)

E. Methodische Entdeckung

4. Signifikanz und Empfehlungen

Do Post-Training Algorithms Actually Differ? A Controlled Study Across Model Scales Uncovers Scale-Dependent Ranking Inversions

1. Die Größe des Ofens ist wichtiger als das Rezept

2. Die Suche nach dem „perfekten Gewürz" war umsonst

3. Der Kuchen schmeckt nur dort, wo er gebacken wurde

4. Die Hierarchie des Erfolgs

Zusammenfassung für den Alltag

1. Problemstellung

2. Methodik: Das OXRL-Framework

3. Wichtige Ergebnisse

A. Skalierungsabhängige Ranking-Inversionen

B. DPO-Varianten: Keine signifikanten Gewinner

C. Aufgaben-spezifische Hebelwirkung (Leverage)

D. Hierarchie der Hebelwirkung (Leverage Hierarchy)

E. Methodische Entdeckung

4. Signifikanz und Empfehlungen

Mehr davon