CapTrack: Multifaceted Evaluation of Forgetting in LLM Post-Training

Das Paper stellt CapTrack vor, ein rahmenbasiertes Evaluierungssystem, das Vergessen in nachtrainierten LLMs nicht nur als Wissensverlust, sondern als systematische Verhaltensdrift definiert und in einer groß angelegten Studie zeigt, dass insbesondere Instruction Fine-Tuning zu erheblichen Einbußen bei Robustheit und Standardverhalten führt, während Präferenzoptimierung konservativer wirkt.

Lukas Thede, Stefan Winzeck, Zeynep Akata, Jonathan Richard Schwarz

Veröffentlicht 2026-03-10
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der vergessliche Genie-Coach

Stell dir vor, du hast einen extrem klugen, gut ausgebildeten Coach (ein großes KI-Modell), der alles über Geschichte, Mathematik und Kochen weiß. Er ist dein "Out-of-the-Box"-Modell – also der Standard, so wie er vom Hersteller kommt.

Jetzt willst du ihn spezialisieren. Du möchtest, dass er ein Rechtsanwalt wird oder ein Arzt. Du bringst ihm also neue, fachspezifische Daten bei (das nennt man "Post-Training" oder Feinabstimmung).

Das Problem dabei ist ein altes Phänomen: Vergessen.
Bisher haben Forscher nur geschaut, ob der Coach noch die alten Fakten weiß (z. B. "Wer war der erste Präsident?"). Wenn er das noch kann, dachten sie: "Alles gut!"

Aber die Autoren dieses Papers sagen: Das reicht nicht!
Ein Coach, der plötzlich vergisst, wie man höflich mit Kunden spricht, der zu kurz antwortet, der sich weigert, einfache Fragen zu beantworten, oder der bei komplexen Aufgaben den Faden verliert – der ist für den Alltag nutzlos, auch wenn er die Fakten noch kennt.

Die Lösung: CapTrack (Der "Fähigkeiten-Ticker")

Die Forscher haben ein neues Werkzeug namens CapTrack entwickelt. Stell dir CapTrack nicht wie einen einfachen Test vor, sondern wie einen multifunktionalen Gesundheitscheck für den Coach.

Sie unterteilen die Fähigkeiten des Coaches in drei Kategorien, die sie sich mit einem einfachen Bild merken können:

  1. CAN (Was er KANN): Das ist das reine Wissen. Kann er Mathe? Kann er programmieren? Kann er Texte verstehen?
    • Analogie: Hat der Arzt noch sein medizinisches Wissen im Kopf?
  2. WILL (Was er WILL): Das ist sein Verhalten und seine Einstellung. Ist er hilfsbereit? Ist er zu wortreich? Weigert er sich, Fragen zu beantworten, die er eigentlich beantworten könnte?
    • Analogie: Ist der Arzt freundlich und geduldig, oder ist er genervt und antwortet nur mit "Ja" oder "Nein"?
  3. HOW (Wie er es MACHT): Das ist die Ausführung. Folgt er Anweisungen genau? Schreibt er die Antwort in der richtigen Form (z. B. als Tabelle)? Behält er den Kontext in einem langen Gespräch bei?
    • Analogie: Schreibt der Arzt das Rezept ordentlich auf oder kritzelt er etwas Unleserliches hin?

Was haben sie herausgefunden?

Sie haben viele verschiedene Coaches (Modelle) getestet, die auf Rechts- und Medizin-Themen trainiert wurden. Hier sind die wichtigsten Erkenntnisse, einfach erklärt:

1. Das Vergessen geht viel tiefer als gedacht
Wenn man einen Coach spezialisiert, vergisst er nicht nur Fakten. Er verändert sich im Verhalten.

  • Beispiel: Ein Coach, der vorher gerne lange, ausführliche Erklärungen gab, wird nach dem Training plötzlich extrem kurz angebunden und verliert seine "Menschlichkeit". Das ist für den Nutzer frustrierend, auch wenn die Fakten stimmen.

2. Nicht alle Trainingsmethoden sind gleich schlimm

  • IFT (Instruction Fine-Tuning): Das ist wie ein harter Drill. Der Coach lernt die neuen Regeln sehr schnell, aber dabei verliert er oft seine alten Stärken (Verhalten, Robustheit) am meisten. Er wird zum "Fachidioten", der unflexibel ist.
  • DPO (Preference Optimization): Das ist eher wie ein sanftes Coaching durch Feedback ("Das war gut, das war schlecht"). Diese Methode ist viel vorsichtiger. Sie spezialisiert den Coach, ohne ihm so viel von seiner Persönlichkeit und seinen alten Fähigkeiten zu nehmen. Manchmal kann sie sogar helfen, Dinge wiederherzustellen, die beim harten Drill verloren gingen.

3. Größe ist nicht alles
Man dachte vielleicht: "Je größer der Coach (mehr Parameter), desto besser hält er sich die Dinge."
Die Studie zeigt: Nein. Ein riesiger Coach kann genauso leicht sein Verhalten ändern wie ein kleiner. Die Größe allein schützt nicht vor dem "Vergessen" von wichtigen Verhaltensweisen.

4. Es gibt keine magische Lösung
Die Forscher haben verschiedene Tricks ausprobiert, um das Vergessen zu verhindern (z. B. mehr alte Daten beim Training mischen oder die Architektur ändern).
Das Ergebnis? Es gibt keinen kostenlosen Mittagessen.

  • Wenn du willst, dass der Coach im neuen Fach (z. B. Medizin) besser wird (Plastizität), musst du oft in Kauf nehmen, dass er im Allgemeinen etwas vergisst (Stabilität).
  • Wenn du versuchst, alles zu speichern, lernt er das neue Fach nicht richtig.
    Es ist ein ständiges Abwägen zwischen "Neues lernen" und "Altes behalten".

Fazit: Warum ist das wichtig?

Früher haben wir nur geschaut: "Weiß die KI noch, wie man 2+2 rechnet?"
Heute sagt CapTrack uns: "Schau mal, die KI weiß zwar noch 2+2, aber sie antwortet jetzt so kurz und unfreundlich, dass niemand sie mehr benutzen möchte."

Die Botschaft: Wenn wir KI-Modelle für die echte Welt anpassen (z. B. für Anwälte oder Ärzte), müssen wir nicht nur auf Fakten achten, sondern auch darauf, wie sie sich verhalten und wie sie Anweisungen ausführen. CapTrack ist das Werkzeug, um genau diese "versteckten" Veränderungen sichtbar zu machen, bevor wir die KI bei unseren Kunden einsetzen.

Kurz gesagt: Ein guter Coach muss nicht nur klug sein, er muss auch noch artig, höflich und zuverlässig bleiben, auch wenn er sich spezialisiert.