On Distinguishing Capability Elicitation from Capability Creation in Post-Training: A Free-Energy Perspective

Dieser Artikel schlägt einen Free-Energy-Rahmen vor, um zwischen Fähigkeits-Elizitation, die bestehende Verhaltensweisen innerhalb des zugänglichen Supports eines Modells neu gewichtet, und Fähigkeits-Entstehung, die diesen Support durch Mechanismen wie Suche oder Werkzeugnutzung erweitert, zu unterscheiden, und argumentiert, dass diese Unterscheidung kritischer ist als die traditionelle SFT-gegenüber-RL-Dichotomie im Post-Training.

Ursprüngliche Autoren: Yuhao Li, Shengchao Liu

Veröffentlicht 2026-05-12
📖 6 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Yuhao Li, Shengchao Liu

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Die große Frage: Haben wir das Modell gelehrt, oder haben wir es nur geweckt?

Stellen Sie sich einen sehr talentierten, aber leicht verwirrten Musiker (das KI-Modell) vor, der jahrelang allein geübt hat (Pre-Training). Jetzt möchten Sie ihm ein neues Lied beibringen.

In der KI-Welt gibt es eine große Debatte darüber, wie wir sie unterrichten.

  • Methode A (SFT): Sie spielen ihnen eine Aufnahme einer perfekten Performance vor und sagen: „Kopiere das genau."
  • Methode B (RL): Sie lassen sie spielen, und jedes Mal, wenn sie einen guten Ton treffen, geben Sie ihnen einen Leckerbissen. Jedes Mal, wenn sie einen schlechten Ton treffen, tun Sie es nicht.

Die gängige Annahme lautet: Methode A lässt sie nur das nachahmen, was sie bereits wissen (Imitation), während Methode B ihnen hilft, neue, erstaunliche Dinge zu entdecken, von denen sie nicht wussten, dass sie sie können können (Entdeckung).

Die Autoren dieses Papers sagen: „Halt. Diese Unterscheidung ist zu einfach."

Sie argumentieren, dass die eigentliche Frage nicht wie man lehrt (Kopieren vs. Belohnungen), sondern was man tatsächlich lehrt ist. Haben Sie dem Musiker nur geholfen, ein Lied zu spielen, zu dem er bereits fähig war, aber ständig Fehler machte? Oder haben Sie ihm tatsächlich die Fähigkeit gegeben, ein Lied zu spielen, das er physisch vorher nicht spielen konnte?

Sie nennen diese beiden Dinge:

  1. Fähigkeits-Enthüllung (Capability Elicitation): Ein Wecken einer Fähigkeit, die bereits da war, aber schlummerte.
  2. Fähigkeits-Schöpfung (Capability Creation): Dem Musiker eine brandneue Fähigkeit geben, die er nicht hatte.

Die Analogie der „Energie-Landschaft"

Um dies zu erklären, verwenden die Autoren ein physikalisches Konzept namens Freie Energie. Stellen Sie sich den Geist des Musikers als eine hügelige Landschaft vor.

  • Die Täler (Becken): Dies sind die leichten Lieder, die der Musiker natürlich spielt. Sie sind tief, bequem und leicht zu erreichen.
  • Die Hügel (Schwänze): Dies sind Lieder, die der Musiker spielen könnte, aber sie liegen sehr hoch. Es erfordert viel Kraft (oder viele Versuche), dorthin zu gelangen.
  • Die Wände (Barrieren): Dies sind Lieder, die durch eine massive, unüberwindbare Mauer getrennt sind. Der Musiker kann sie nicht erreichen, indem er einfach herumwandert; er braucht eine Leiter oder eine Brücke.
  • Die andere Seite der Welt (Nicht-Unterstütztes): Dies sind Lieder, die in der Welt des Musikers noch gar nicht existieren.

Wie Training auf dieser Karte funktioniert

Sowohl „Kopieren" (SFT) als auch „Belohnungen" (RL) funktionieren, indem sie die Landschaft kippen.

  • Wenn Sie eine Belohnung für ein Lied in einem Tal geben, wird das Tal tiefer. Der Musiker spielt dieses Lied häufiger.
  • Wenn Sie eine Belohnung für ein Lied auf einem Hügel geben, erhält der Hügel eine Rampe. Der Musiker kann nun leichter zu diesem Lied hinaufklettern.

Der entscheidende Punkt:
Wenn das Lied bereits in einem Tal oder auf einem Hügel lag, haben Sie keine neue Fähigkeit geschaffen. Sie haben nur eine bestehende Fähigkeit zuverlässiger gemacht. Dies ist Enthüllung.

Wenn das Lied hinter einer Mauer lag und Ihre Trainingsmethode irgendwie eine Brücke oder eine Leiter baute, um dorthin zu gelangen, dann haben Sie eine neue Fähigkeit geschaffen. Dies ist Schöpfung.


Die vier Zonen des Lernens

Das Paper unterteilt das Nach-Training in vier spezifische Szenarien basierend auf dieser Karte:

1. Die „Sichere Zone" (Demonstrations-abgedeckte Enthüllung)

  • Das Szenario: Der Musiker kennt das Lied bereits perfekt, vergisst aber manchmal den Text. Sie zeigen ihm die Noten (Demonstrationen).
  • Das Ergebnis: Er hört auf, zu vergessen. Er hat kein neues Lied gelernt; er hat nur ein altes stabilisiert.
  • Das Fazit: Ob Sie Kopieren oder Belohnungen verwenden – wenn die Antwort bereits leicht zu finden war, polieren Sie nur einen rauen Edelstein, Sie erschaffen keinen neuen.

2. Der „Versteckte Schatz" (Schwanz-Neugewichtung)

  • Das Szenario: Der Musiker kennt ein komplexes Jazz-Solo, spielt es aber nur einmal in einer Million Versuche. Es ist in den „Hügeln" versteckt.
  • Das Ergebnis: Sie verwenden ein Belohnungssystem, um zu sagen: „Wow, dieses Jazz-Solo war großartig!" Plötzlich spielt er es ständig.
  • Das Fazit: Es sieht nach Magie aus, weil die Leistung sprunghaft angestiegen ist. Aber der Musiker konnte es die ganze Zeit spielen; er brauchte nur einen Anstoß, um es zu finden. Dies ist immer noch Enthüllung, keine Schöpfung.

3. Der „Brückenbauer" (Barrieren-überwindende Entdeckung)

  • Das Szenario: Der Musiker muss ein Lied spielen, das eine Abfolge von Schritten erfordert, die er noch nie zusammen ausgeführt hat. Es liegt hinter einer Mauer.
  • Das Ergebnis: Sie geben nicht nur eine Belohnung am Ende. Sie geben Belohnungen für Schritte unterwegs, oder Sie lassen ihn ein Werkzeug (wie eine Leiter) verwenden, um die Lücke zu überbrücken.
  • Das Fazit: Dies ist Fähigkeits-Schöpfung. Das Training hat nicht nur den Hügel gekippt; es hat das Terrain so verändert, dass der Musiker einen Ort erreichen konnte, der ihm zuvor blockiert war.

4. Die „Unmögliche Zone" (Nicht-Unterstützte Regime)

  • Das Szenario: Sie bitten den Musiker, ein Lied zu spielen, das eine Geige erfordert, er hat aber nur eine Gitarre.
  • Das Ergebnis: Keine Menge an Kopieren oder Belohnen wird helfen. Die „Energie", die zum Spielen dieses Liedes erforderlich ist, ist unendlich.
  • Das Fazit: Sie können hier keine Fähigkeit nur durch Training „erschaffen". Sie benötigen neue Informationen, ein neues Instrument oder ein ganz anderes Modell.

Warum dies wichtig ist

Das Paper argumentiert, dass wir oft verwirrt sind, weil wir auf die Methode (SFT vs. RL) statt auf den Mechanismus schauen.

  • Mythos: „RL ist magisch, weil es neue Fähigkeiten erschafft."

  • Realität: RL erschafft nur neue Fähigkeiten, wenn es mit Werkzeugen, Suche oder Interaktion gekoppelt ist, die dem Modell helfen, „Wände" zu überwinden. Wenn RL das Modell nur für Dinge belohnt, die es bereits tun konnte, ist es nur Enthüllung.

  • Mythos: „SFT ist schwach, weil es nur kopiert."

  • Realität: Wenn die „Kopier"-Daten von einer superklugen Quelle stammen (wie einer Suchmaschine oder einer stärkeren KI), kann SFT dem Modell Dinge beibringen, die es nie wusste, und wirkt effektiv als Schöpfung.

Das Fazit

Wenn wir sehen, dass eine KI besser wird, sollten wir nicht nur fragen: „Haben sie Reinforcement Learning verwendet?"

Wir sollten fragen: „Haben sie die KI nur besser darin gemacht, Dinge zu tun, die sie bereits konnte, oder haben sie der KI tatsächlich die Fähigkeit gegeben, etwas zu tun, was sie vorher nicht konnte?"

Das Paper schlägt vor, dass wir die meiste Zeit nur Fähigkeiten wecken, die bereits da waren (Enthüllung), und dass wir sehr vorsichtig sein müssen, bevor wir behaupten, wir hätten wirklich neue Fähigkeiten erfunden (Schöpfung).

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →