Ursprüngliche Autoren: Yuhao Li, Shengchao Liu

Veröffentlicht 2026-05-12

📖 6 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Yuhao Li, Shengchao Liu

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Die große Frage: Haben wir das Modell gelehrt, oder haben wir es nur geweckt?

Stellen Sie sich einen sehr talentierten, aber leicht verwirrten Musiker (das KI-Modell) vor, der jahrelang allein geübt hat (Pre-Training). Jetzt möchten Sie ihm ein neues Lied beibringen.

In der KI-Welt gibt es eine große Debatte darüber, wie wir sie unterrichten.

Methode A (SFT): Sie spielen ihnen eine Aufnahme einer perfekten Performance vor und sagen: „Kopiere das genau."
Methode B (RL): Sie lassen sie spielen, und jedes Mal, wenn sie einen guten Ton treffen, geben Sie ihnen einen Leckerbissen. Jedes Mal, wenn sie einen schlechten Ton treffen, tun Sie es nicht.

Die gängige Annahme lautet: Methode A lässt sie nur das nachahmen, was sie bereits wissen (Imitation), während Methode B ihnen hilft, neue, erstaunliche Dinge zu entdecken, von denen sie nicht wussten, dass sie sie können können (Entdeckung).

Die Autoren dieses Papers sagen: „Halt. Diese Unterscheidung ist zu einfach."

Sie argumentieren, dass die eigentliche Frage nicht wie man lehrt (Kopieren vs. Belohnungen), sondern was man tatsächlich lehrt ist. Haben Sie dem Musiker nur geholfen, ein Lied zu spielen, zu dem er bereits fähig war, aber ständig Fehler machte? Oder haben Sie ihm tatsächlich die Fähigkeit gegeben, ein Lied zu spielen, das er physisch vorher nicht spielen konnte?

Sie nennen diese beiden Dinge:

Fähigkeits-Enthüllung (Capability Elicitation): Ein Wecken einer Fähigkeit, die bereits da war, aber schlummerte.
Fähigkeits-Schöpfung (Capability Creation): Dem Musiker eine brandneue Fähigkeit geben, die er nicht hatte.

Die Analogie der „Energie-Landschaft"

Um dies zu erklären, verwenden die Autoren ein physikalisches Konzept namens Freie Energie. Stellen Sie sich den Geist des Musikers als eine hügelige Landschaft vor.

Die Täler (Becken): Dies sind die leichten Lieder, die der Musiker natürlich spielt. Sie sind tief, bequem und leicht zu erreichen.
Die Hügel (Schwänze): Dies sind Lieder, die der Musiker spielen könnte, aber sie liegen sehr hoch. Es erfordert viel Kraft (oder viele Versuche), dorthin zu gelangen.
Die Wände (Barrieren): Dies sind Lieder, die durch eine massive, unüberwindbare Mauer getrennt sind. Der Musiker kann sie nicht erreichen, indem er einfach herumwandert; er braucht eine Leiter oder eine Brücke.
Die andere Seite der Welt (Nicht-Unterstütztes): Dies sind Lieder, die in der Welt des Musikers noch gar nicht existieren.

Wie Training auf dieser Karte funktioniert

Sowohl „Kopieren" (SFT) als auch „Belohnungen" (RL) funktionieren, indem sie die Landschaft kippen.

Wenn Sie eine Belohnung für ein Lied in einem Tal geben, wird das Tal tiefer. Der Musiker spielt dieses Lied häufiger.
Wenn Sie eine Belohnung für ein Lied auf einem Hügel geben, erhält der Hügel eine Rampe. Der Musiker kann nun leichter zu diesem Lied hinaufklettern.

Der entscheidende Punkt:
Wenn das Lied bereits in einem Tal oder auf einem Hügel lag, haben Sie keine neue Fähigkeit geschaffen. Sie haben nur eine bestehende Fähigkeit zuverlässiger gemacht. Dies ist Enthüllung.

Wenn das Lied hinter einer Mauer lag und Ihre Trainingsmethode irgendwie eine Brücke oder eine Leiter baute, um dorthin zu gelangen, dann haben Sie eine neue Fähigkeit geschaffen. Dies ist Schöpfung.

Die vier Zonen des Lernens

Das Paper unterteilt das Nach-Training in vier spezifische Szenarien basierend auf dieser Karte:

1. Die „Sichere Zone" (Demonstrations-abgedeckte Enthüllung)

Das Szenario: Der Musiker kennt das Lied bereits perfekt, vergisst aber manchmal den Text. Sie zeigen ihm die Noten (Demonstrationen).
Das Ergebnis: Er hört auf, zu vergessen. Er hat kein neues Lied gelernt; er hat nur ein altes stabilisiert.
Das Fazit: Ob Sie Kopieren oder Belohnungen verwenden – wenn die Antwort bereits leicht zu finden war, polieren Sie nur einen rauen Edelstein, Sie erschaffen keinen neuen.

2. Der „Versteckte Schatz" (Schwanz-Neugewichtung)

Das Szenario: Der Musiker kennt ein komplexes Jazz-Solo, spielt es aber nur einmal in einer Million Versuche. Es ist in den „Hügeln" versteckt.
Das Ergebnis: Sie verwenden ein Belohnungssystem, um zu sagen: „Wow, dieses Jazz-Solo war großartig!" Plötzlich spielt er es ständig.
Das Fazit: Es sieht nach Magie aus, weil die Leistung sprunghaft angestiegen ist. Aber der Musiker konnte es die ganze Zeit spielen; er brauchte nur einen Anstoß, um es zu finden. Dies ist immer noch Enthüllung, keine Schöpfung.

3. Der „Brückenbauer" (Barrieren-überwindende Entdeckung)

Das Szenario: Der Musiker muss ein Lied spielen, das eine Abfolge von Schritten erfordert, die er noch nie zusammen ausgeführt hat. Es liegt hinter einer Mauer.
Das Ergebnis: Sie geben nicht nur eine Belohnung am Ende. Sie geben Belohnungen für Schritte unterwegs, oder Sie lassen ihn ein Werkzeug (wie eine Leiter) verwenden, um die Lücke zu überbrücken.
Das Fazit: Dies ist Fähigkeits-Schöpfung. Das Training hat nicht nur den Hügel gekippt; es hat das Terrain so verändert, dass der Musiker einen Ort erreichen konnte, der ihm zuvor blockiert war.

4. Die „Unmögliche Zone" (Nicht-Unterstützte Regime)

Das Szenario: Sie bitten den Musiker, ein Lied zu spielen, das eine Geige erfordert, er hat aber nur eine Gitarre.
Das Ergebnis: Keine Menge an Kopieren oder Belohnen wird helfen. Die „Energie", die zum Spielen dieses Liedes erforderlich ist, ist unendlich.
Das Fazit: Sie können hier keine Fähigkeit nur durch Training „erschaffen". Sie benötigen neue Informationen, ein neues Instrument oder ein ganz anderes Modell.

Warum dies wichtig ist

Das Paper argumentiert, dass wir oft verwirrt sind, weil wir auf die Methode (SFT vs. RL) statt auf den Mechanismus schauen.

Mythos: „RL ist magisch, weil es neue Fähigkeiten erschafft."
Realität: RL erschafft nur neue Fähigkeiten, wenn es mit Werkzeugen, Suche oder Interaktion gekoppelt ist, die dem Modell helfen, „Wände" zu überwinden. Wenn RL das Modell nur für Dinge belohnt, die es bereits tun konnte, ist es nur Enthüllung.
Mythos: „SFT ist schwach, weil es nur kopiert."
Realität: Wenn die „Kopier"-Daten von einer superklugen Quelle stammen (wie einer Suchmaschine oder einer stärkeren KI), kann SFT dem Modell Dinge beibringen, die es nie wusste, und wirkt effektiv als Schöpfung.

Das Fazit

Wenn wir sehen, dass eine KI besser wird, sollten wir nicht nur fragen: „Haben sie Reinforcement Learning verwendet?"

Wir sollten fragen: „Haben sie die KI nur besser darin gemacht, Dinge zu tun, die sie bereits konnte, oder haben sie der KI tatsächlich die Fähigkeit gegeben, etwas zu tun, was sie vorher nicht konnte?"

Das Paper schlägt vor, dass wir die meiste Zeit nur Fähigkeiten wecken, die bereits da waren (Enthüllung), und dass wir sehr vorsichtig sein müssen, bevor wir behaupten, wir hätten wirklich neue Fähigkeiten erfunden (Schöpfung).

Technische Zusammenfassung: Unterscheidung zwischen der Elicitierung und der Erschaffung von Fähigkeiten im Post-Training

1. Problemstellung

Der vorherrschende Diskurs im Post-Training großer Sprachmodelle (LLM) fasst den Unterschied zwischen Supervised Fine-Tuning (SFT) und Reinforcement Learning (RL) oft als Dichotomie zwischen Imitation (SFT) und Entdeckung (RL) auf. Diese Arbeit argumentiert, dass diese Unterscheidung zu grob ist und den grundlegenden Mechanismus verschleiert, durch den Post-Training das Modellverhalten verändert.

Das Kernproblem besteht darin, zu bestimmen, ob ein Post-Training-Verfahren:

Fähigkeiten elizitiert: Die Wahrscheinlichkeit von Verhaltensweisen erhöht, die das vortrainierte Basismodell bereits produzieren konnte, dies jedoch unzuverlässig tat.
Fähigkeiten erschafft: Den Satz von Verhaltensweisen erweitert, die das Modell praktisch erreichen kann, und ermöglicht Ergebnisse, die zuvor unzugänglich waren.

Die Autoren vertreten die Auffassung, dass die Bezeichnung einer Methode als „SFT" oder „RL" ihren Fähigkeitsmechanismus nicht bestimmt. Stattdessen hängt der Mechanismus von der Quelle der Trainingssignale (Demonstrationen vs. Belohnungen), der Generierung von Kandidatenverhalten und davon ab, ob der Prozess den zugänglichen Träger (accessible support) des Modells erweitert.

2. Methodik und Theoretischer Rahmen

2.1 Die Perspektive der Freien Energie

Die Autoren formalisieren Post-Training unter Verwendung eines Freie-Energie-Rahmens und ziehen eine Analogie zur statistischen Physik ($F = E - TS$). Sie interpretieren Post-Training-Ziele als Minimierung einer effektiven freien Energie:
$F_x(q) = \mathbb{E}_{y \sim q(y|x)}[E(x, y)] + \beta \text{KL}[q(y|x) \parallel p_0(y|x)]$
Wobei:

$p_0(y|x)$ die vortrainierte Referenzverteilung ist.
$q(y|x)$ die nachtrainierte Verteilung ist.
$E(x, y)$ die effektive Energie ist, die aus externen Signalen abgeleitet wird.
$\beta$ als inverse Temperatur fungiert und den Kompromiss zwischen der Ausbeutung bevorzugter Verhaltensweisen und der Aufrechterhaltung von Vielfalt (KL-Beschränkung) steuert.

Wichtige theoretische Erkenntnisse:

SFT als Energie: SFT minimiert die negative Log-Likelihood auf Demonstrationen. Dies entspricht der Definition einer effektiven Energie $E_{SFT}(x, y) = -\beta \log \frac{p_{demo}(y|x)}{p_0(y|x)}$ . Befindet sich ein Verhalten in der Demonstrationsverteilung, hat aber im Basismodell eine Wahrscheinlichkeit von null ( $p_0 \to 0$ ), wird die Energie singulär, was die Interpretation der lokalen Neugewichtung bricht.
RL als Energie: RL maximiert Belohnungen unter einer KL-Beschränkung. Dies entspricht $E_{RL}(x, y) = -R(x, y)$ . Die optimale Verteilung ist eine Boltzmann-Neugewichtung der Referenz: $q^*(y|x) \propto p_0(y|x) \exp(R(x, y)/\beta)$ .
Lokale Neugewichtung: Wenn Updates nahe am Referenzmodell bleiben (starke KL-Beschränkung), besteht der primäre Effekt in der lokalen Neugewichtung der bestehenden Verteilung, nicht in der Erschaffung neuer Verhaltensweisen.

2.2 Zugänglicher Träger

Um die Unterscheidung zwischen Elicitierung und Erschaffung zu operationalisieren, führt die Arbeit den zugänglichen Träger ein: die Menge der Verhaltensweisen, die ein Modell unter endlichen Sampling-, Optimierungs- und Divergenz-Budgets praktisch produzieren kann. Dieses Konzept geht über den strengen mathematischen Träger (nicht-null Wahrscheinlichkeit) hinaus und betrachtet die praktische Erreichbarkeit.

Die Autoren kategorisieren die Verhaltenslandschaft in vier Regime basierend auf der Beziehung zwischen dem Zielverhalten und dem zugänglichen Träger des Basismodells:

Demonstrations-abgedeckte Elicitierung: Das Zielverhalten liegt in einem hochwahrscheinlichen „Becken" des Basismodells und wird von Demonstrationen abgedeckt. Post-Training stabilisiert dieses bestehende Verhalten.
Schwanz-Neugewichtung: Das Zielverhalten liegt im „Schwanz" der Verteilung des Basismodells (selten unter gierigem Decoding, aber erreichbar unter größeren Sampling-Budgets wie Best-of-N). Post-Training verstärkt diese seltenen, aber erreichbaren Verhaltensweisen.
Barrieren-überwindende Entdeckung: Das Zielverhalten ist von den typischen Ausgaben des Basismodells durch „Barrieren" getrennt (Folgen von Wahrscheinlichkeiten mit niedrigen Zwischenstufen). Das Erreichen dieser erfordert eine Änderung des Trajektorien-Generierungsprozesses (z. B. durch Suche, Werkzeugnutzung oder Prozessüberwachung), nicht nur eine Neugewichtung.
Nicht unterstützte Regime: Das Zielverhalten liegt außerhalb des Trägers des Basismodells ( $p_0(y|x) = 0$ ). Die effektive Energie wird divergent. Post-Training kann diese Fähigkeiten ohne neue Informationen, Werkzeuge oder architektonische Änderungen nicht erschaffen.

3. Hauptbeiträge

Neuformulierung der SFT-gegenüber-RL-Debatte: Die Arbeit verlagert den Fokus von algorithmischen Labels (SFT/RL) auf den Mechanismus der Fähigkeitsänderung (Elicitierung vs. Erschaffung). Sie argumentiert, dass SFT neue Verhaltensweisen elizitieren kann, wenn Demonstrationen hochwertig sind (den Schwanz abdecken), und RL lediglich eine Neugewichtung sein kann, wenn sie durch eine starke KL-Strafe eingeschränkt ist.
Diagnostischer Rahmen: Durch die Anwendung der Freien-Energie-Perspektive stellen die Autoren ein mathematisches Werkzeug bereit, um zu diagnostizieren, ob Leistungsgewinne aus lokaler Neugewichtung (innerhalb des zugänglichen Trägers) oder aus Träererweiterung (Überwindung von Barrieren) resultieren.
Die vier Regime: Die Arbeit etabliert eine Taxonomie für Post-Training-Ergebnisse und klärt, dass „Erschaffung von Fähigkeiten" keine binäre Eigenschaft einer Methode ist, sondern eine Eigenschaft der Interaktion zwischen dem Trainingssignal, dem Prozess der Kandidatengenerierung und der Erreichbarkeit des Basismodells.
Klärung von „Erschaffung": Die Autoren argumentieren, dass wahre Erschaffung von Fähigkeiten (Barrieren-überwindende Entdeckung) Mechanismen erfordert, die den Trajektorien-Generierungsprozess verändern (z. B. Suche, Interaktion, Werkzeugnutzung), anstatt isolierte Belohnungsmaximierung.

4. Ergebnisse und Behauptungen

Die Arbeit präsentiert keine neuen empirischen Benchmarks, sondern bietet eine diagnostische Analyse bestehender Post-Training-Phänomene:

SFT ist nicht inhärent schwach: Wenn Demonstrationen Trajektorien enthalten, die durch Suche oder stärkere Modelle generiert wurden, kann SFT Verhaltensweisen elizitieren, die das Basismodell selten produziert. Die Einschränkung von SFT liegt in der Abdeckung der Demonstrationsverteilung, nicht im überwachungsziel selbst.
RL ist nicht inhärent kreativ: Wenn RL mit starken KL-Beschränkungen und ohne Suchmechanismen angewendet wird, gewichtet es lediglich die Schwanzverhalten des Basismodells neu. Große Benchmark-Gewinne in diesem Regime spiegeln Schwanz-Neugewichtung wider, nicht die Erschaffung neuer Fähigkeiten.
Die Singularitäts-Grenze: Der Übergang von Elicitierung zu Erschaffung ist durch eine Singularität in der Freie-Energie-Formulierung markiert. Wenn $p_0(y|x) \to 0$ für ein erforderliches Verhalten, bricht die Sichtweise der lokalen Neugewichtung zusammen, was darauf hinweist, dass das Verhalten außerhalb des zugänglichen Trägers liegt.

5. Bedeutung und Umfang

Die Arbeit behauptet, dass die Unterscheidung zwischen Fähigkeits-Elicitierung und Fähigkeits-Erschaffung für eine rigorose Post-Training-Forschung unerlässlich ist.

Bescheidene Ansprüche: Die Autoren stellen ausdrücklich fest, dass sie nicht behaupten, SFT und RL seien identisch, noch dass Optimierungsdynamiken irrelevant seien. Stattdessen argumentieren sie, dass Optimierungsdynamiken relativ zum Regime interpretiert werden müssen (z. B. müssen in Barrieren-überwindenden Regimen Optimierung mit Änderungen der Trajektorien-Generierung gekoppelt sein).
Umfang: Der Rahmen ist diagnostisch. Er klärt, dass Leistungsverbesserungen allein kein ausreichender Beweis für die Erschaffung von Fähigkeiten sind. Um Erschaffung zu behaupten, muss nachgewiesen werden, dass die Methode den erreichbaren Verhaltensraum des Modells erweitert hat, oft durch Suche, Interaktion oder neue Informationen, und nicht einfach durch Neugewichtung bestehender Wahrscheinlichkeiten.
Zukünftige Richtung: Die Arbeit fordert zukünftige Arbeiten auf, diese Regime explizit zu unterscheiden. Forscher sollten nicht nur Leistungsgewinne berichten, sondern auch, ob diese Gewinne die Stabilisierung von Becken, die Verstärkung von Schwänzen oder das Überwinden von Barrieren widerspiegeln.

Zusammenfassend postuliert die Arbeit, dass die zentrale Frage im Post-Training nicht „SFT oder RL?" lautet, sondern „Gewichtet diese Methode das bereits Erreichbare neu, oder erweitert sie das Erreichbare?"

On Distinguishing Capability Elicitation from Capability Creation in Post-Training: A Free-Energy Perspective