TED: Training-Free Experience Distillation for Multimodal Reasoning

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie versuchen, einem jungen, talentierten Koch (dem Schüler-Modell) beizubringen, ein komplexes Gericht zuzubereiten.

In der herkömmlichen Welt des maschinellen Lernens (die sogenannte "Wissensdestillation") würde man dem Koch einen riesigen Stapel Rezeptbücher geben, ihn stundenlang in der Küche stehen lassen und ihn zwingen, seine eigenen Hände und Werkzeuge (die Parameter) so lange zu trainieren, bis er die Bewegungen perfekt verinnerlicht hat. Das kostet viel Zeit, viel Strom und erfordert, dass der Koch das Rezeptbuch auswendig lernt. Wenn sich die Zutaten ändern, muss er oft von vorne anfangen.

TED (Training-Free Experience Distillation) ist eine völlig andere, schlauere Methode. Hier wird der Koch nicht umgeschult. Stattdessen geben wir ihm einen kleinen, ständig aktualisierten Zettel, den er sich an die Wand hängen kann.

Hier ist die Geschichte von TED, einfach erklärt:

1. Das Problem: Der teure Umbau

Normalerweise muss man KI-Modelle "umprogrammieren", um sie besser zu machen. Das ist wie der Versuch, einem Auto einen neuen Motor einzubauen, während es fährt. Es ist teuer, kompliziert und oft unmöglich, besonders wenn das Auto (das Modell) bereits fest verbaut ist oder wenig Platz hat.

2. Die Lösung: Der "Erfahrungs-Zettel" (Kontext)

TED sagt: "Warum den Motor umbauen, wenn wir dem Fahrer einfach eine bessere Checkliste geben können?"

Der Lehrer (Teacher): Ein sehr erfahrener Koch (ein riesiges KI-Modell) schaut sich an, wie der junge Koch (das kleine Modell) versucht, das Gericht zu kochen.
Der Vergleich: Der junge Koch versucht es mehrmals. Manchmal verbrennt er das Essen, manchmal ist es fast perfekt. Der erfahrene Koch schaut sich diese Versuche an, vergleicht sie mit seinem eigenen perfekten Rezept und dem "richtigen" Ergebnis.
Die Erkenntnis: Statt dem jungen Koch zu sagen "Du musst deine Hände anders bewegen" (was eine Umprogrammierung wäre), schreibt der erfahrene Koch einen kurzen, klugen Tipp auf den Zettel.
- Beispiel: "Achtung: Wenn die Soße zu dick wird, füge immer einen Schluck Wasser hinzu, bevor du rührst." oder "Vergiss nie, die Zwiebeln erst anzubraten, sonst schmeckt es bitter."

3. Der Clou: Der Zettel wird immer besser (Kompression)

Das Problem bei solchen Zetteln ist: Wenn man sie zu lange sammelt, wird die Liste so lang, dass der Koch sie gar nicht mehr lesen kann. Sie wird unübersichtlich und voller Unsinn.

TED hat einen genialen Trick: Der erfahrene Koch ist auch der Redakteur.
Er schaut sich die Liste der Tipps an und sagt:

"Diese drei Tipps sagen eigentlich dasselbe? Wirf sie zusammen zu einem super-treffenden Satz!" (Mergen)
"Dieser Tipp war gestern noch gut, aber heute ist er falsch. Streich ihn!" (Löschen)
"Dieser Tipp wird nie benutzt. Weg damit!" (Löschen)
"Dieser Tipp war super, behalte ihn!" (Behalten)

So bleibt der Zettel immer kurz, prägnant und voller echter Weisheit. Das nennt man Erfahrungskompression.

4. Das Ergebnis: Lernen ohne Umbau

Wenn der junge Koch jetzt ein neues Gericht kocht, liest er einfach seinen aktuellen Zettel. Er nutzt die gesammelten Erfahrungen, um Fehler zu vermeiden und schneller besser zu werden.

Kein Training: Der Koch muss nicht neu lernen, wie man kocht (keine Parameter-Updates).
Wenig Daten: Es reichen nur 100 Beispiele, um einen sehr guten Zettel zu schreiben.
Günstig: Es kostet fast kein Geld, weil man keine teuren Computer-Stunden für das "Umbauen" des Kochs braucht.

Zusammenfassung in einer Metapher

Stellen Sie sich vor, Sie lernen eine neue Sprache.

Alte Methode: Sie gehen auf eine Universität, studieren 4 Jahre lang Grammatik und Vokabeln, bis Ihr Gehirn die Regeln verinnerlicht hat (teuer, langsam).
TED-Methode: Sie bekommen einen intelligenten Reisebegleiter. Wenn Sie einen Fehler machen, sagt der Begleiter nicht "Lerne die Grammatik neu", sondern er schreibt Ihnen einen kleinen Merkspruch auf Ihren Notizblock: "Wenn du 'gehen' sagst, vergiss das 'e' am Ende nicht!". Mit jedem Tag wird Ihr Notizblock kürzer, aber weiser. Sie werden besser, ohne dass sich Ihr Gehirn verändert hat.

Warum ist das wichtig?
TED zeigt, dass man KI-Modelle nicht immer "umprogrammieren" muss, um sie schlauer zu machen. Man kann sie einfach mit klugen, gesammelten Erfahrungen ausstatten. Das ist besonders toll für kleine Geräte (wie Handys) oder für Situationen, in denen man keine teuren Rechenzentren hat. Es ist wie ein Lehrbuch, das sich selbst schreibt und verbessert, während man es liest.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Wissensdistillation (Knowledge Distillation, KD) ist ein Standardverfahren, um Fähigkeiten von großen multimodalen Sprachmodellen (Teacher) auf kleinere Modelle (Student) zu übertragen. Herkömmliche Ansätze basieren jedoch auf einer parameterbasierten Strategie: Der Student wird durch Feinabstimmung (Fine-Tuning) auf großen, vom Teacher generierten Datensätzen trainiert.

Dieses Vorgehen hat erhebliche Nachteile:

Hohe Rechenkosten: Es erfordert wiederholte Gradienten-Updates und umfangreiche Trainingsdaten.
Eingeschränkte Anwendbarkeit: In ressourcenbeschränkten Umgebungen (z. B. Edge-Geräte) oder bei Black-Box-APIs ist eine Parameter-Update oft unmöglich oder unpraktisch.
Datenineffizienz: Die Methoden benötigen große Datenmengen, um effektiv zu sein.

Die zentrale Forschungsfrage lautet daher: Kann Wissensdistillation erreicht werden, ohne die Modellparameter zu aktualisieren?

2. Methodik: TED (Training-Free Experience Distillation)

TED (Training-Free Experience Distillation) schlägt einen Paradigmenwechsel vor: Statt die Parameter des Student-Modells zu optimieren, wird das Ziel der Distillation auf den Kontext (Prompt) verschoben. Das Wissen wird nicht in Gewichten gespeichert, sondern als „kontextuelle Erfahrung" (in-context experience) injiziert.

Der Framework-Prozess gliedert sich in drei Hauptschritte (siehe Abbildung 2 im Paper):

A. Generierung von Reasoning-Trajektorien

Für einen gegebenen Eingabedatensatz $(x, y)$ :

Das Student-Modell generiert parallel $N$ verschiedene Reasoning-Trajektorien (Lösungswege).
Das Teacher-Modell generiert unabhängig eine eigene Lösung.
Filterung: Nur Teacher-Trajektorien, die die korrekte Ground-Truth-Lösung liefern, werden als valide Referenz verwendet.

B. Erfahrungsgenerierung (Experience Generation)

Ein Teacher-Judging-Modul bewertet die Student-Trajektorien im Vergleich zur Teacher-Lösung und der Ground-Truth.

Der Teacher analysiert Unterschiede zwischen korrekten und fehlerhaften Pfaden.
Es werden generalisierte Erfahrungselemente extrahiert, wie z. B. übertragbare Strategien, häufige Fehlermuster und Korrekturregeln.
Diese Elemente werden nicht als rohe Beispiele gespeichert, sondern als abstrakte, wiederverwendbare Prinzipien.
Der Teacher führt diskrete Aktionen auf dem Erfahrungsspeicher $E$ aus: Hinzufügen (Add), Modifizieren (Modify), Löschen (Delete) oder Keine Aktion (None).

C. Erfahrungskompression (Experience Compression)

Ein kritisches Problem bei kontextbasierten Methoden ist das unendliche Wachstum des Kontexts und die Anhäufung von Rauschen. TED löst dies durch einen teacher-gesteuerten Kompressionsmechanismus:

Nutzungstracking: TED verfolgt die Häufigkeit, mit der einzelne Erfahrungselemente während des Trainings abgerufen werden.
Utility-Score: Basierend auf der Nutzungshäufigkeit wird ein Nutzenwert berechnet.
Kompressionsaktionen: Wenn der Kontextbudget überschritten wird, fasst der Teacher redundante Elemente zusammen (Merge), schreibt sie um (Rewrite) oder entfernt nutzlose/rasch veraltete Elemente (Delete). Dies stellt sicher, dass der Prompt kompakt, informativ und skalierbar bleibt.

Während der Inferenz wird der optimierte Erfahrungsspeicher direkt in den System-Prompt des Student-Modells injiziert, wodurch das Modell ohne Parameter-Updates profitiert.

3. Hauptbeiträge

TED-Framework: Einführung eines trainingsfreien, kontextbasierten Distillationsrahmens, der effektiven Wissenstransfer ohne Parameter-Updates ermöglicht.
Teacher-gesteuerte Kompression: Entwicklung eines Mechanismus zur Generierung und Kompression von Erfahrungen, der wiederverwendbare Reasoning-Prinzipien extrahiert und einen kompakten, hochnutzbringenden Kontext erhält.
Daten- und Kosteneffizienz: Demonstration, dass TED mit extrem wenigen Trainingsdaten (nur 100 Beispiele) und ohne Gradienten-Updates konkurrenzfähige Ergebnisse erzielt.

4. Ergebnisse

Die Evaluierung erfolgte auf multimodalen mathematischen und logischen Benchmarks (MathVision, VisualPuzzles) sowie rein textbasierten Aufgaben (AIME25).

Leistungssteigerung:
- Auf MathVision steigerte TED die Genauigkeit von Qwen3-VL-8B von 0,627 auf 0,702.
- Auf VisualPuzzles stieg die Leistung von 0,517 auf 0,561.
- Auch bei rein textbasierten Modellen (Qwen3-8B auf AIME25) wurde eine Steigerung von 0,673 auf 0,733 erreicht.
Vergleich mit Baselines:
- TED übertrifft direkte Inferenz und andere training-freie Methoden (wie Reflexion, Memento) deutlich.
- Obwohl voll trainierte KD (Naive-KD) bei sehr großen Datensätzen die absolut beste Leistung erzielt, ist TED mit nur 100 Trainingsbeispielen bereits sehr wettbewerbsfähig.
Kostenreduktion:
- Im Vergleich zu einer traditionellen KD (Naive-KD) reduziert TED die Trainingskosten um den Faktor 22,9× (von ca. 288 $auf 12,6$ bei 100 Samples).
Ablationsstudien:
- Die Kompression ist entscheidend: Ohne sie bricht die Leistung ein (auf 0,594), da Rauschen und Redundanz das Modell überfordern.
- Die Qualität des Teachers beeinflusst die Ergebnisse direkt (stärkere Teacher-Modelle führen zu besseren Erfahrungen).
- Cross-Modal-Transfer: Erfahrungen, die auf multimodalen Daten gelernt wurden, verbessern auch rein textbasierte Aufgaben und umgekehrt.

5. Bedeutung und Fazit

TED demonstriert, dass bedeutungsvoller Wissenstransfer durch kontextuelle Erfahrungsinjektion erreicht werden kann, ohne die teuren und rechenintensiven Parameter-Updates herkömmlicher Distillation.

Praktische Relevanz: Die Methode ist ideal für Szenarien, in denen Fine-Tuning nicht möglich ist (Black-Box-APIs, Edge-Devices) oder Ressourcen stark begrenzt sind.
Skalierbarkeit: Durch den Kompressionsmechanismus bleibt der Ansatz auch über lange Trainingsphasen hinweg stabil und effizient.
Paradigmenwechsel: TED zeigt, dass „Lernen aus Erfahrung" nicht zwingend das Speichern von Gewichten erfordert, sondern durch intelligente Prompt-Engineering und Kontext-Management realisiert werden kann.

Zusammenfassend bietet TED eine leichte, dateneffiziente und kostengünstige Alternative zur traditionellen parametrischen Distillation, die insbesondere in ressourcenbeschränkten Umgebungen oder bei schnellen Anpassungen an neue Aufgaben überlegen ist.