TempoFit: Plug-and-Play Layer-Wise Temporal KV Memory for Long-Horizon Vision-Language-Action Manipulation

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen extrem klugen Roboter-Automaten, der gelernt hat, Aufgaben im Haushalt zu erledigen – wie Geschirr abräumen oder Essen zubereiten. Dieser Roboter ist wie ein Super-Genie, das aber eine sehr seltsame Eigenschaft hat: Er hat ein extrem kurzes Gedächtnis.

Er sieht nur das, was genau jetzt vor seiner Kamera ist. Wenn er einen Teller nimmt, vergisst er sofort, dass er gerade erst den Löffel weggelegt hat. Wenn ein Objekt hinter einem anderen versteckt ist (Verdeckung), weiß er nicht mehr, wo es war. Er handelt wie jemand, der bei jedem Schritt einen neuen Film startet, ohne sich an die vorherigen Szenen zu erinnern. Das führt dazu, dass er bei langen Aufgaben (z. B. „Räume den ganzen Tisch ab") oft verwirrt ist, Dinge doppelt macht oder die Aufgabe abbricht.

Bisherige Lösungen waren wie:

Den Roboter zwingen, 10 Sekunden alte Videos anzusehen: Das macht ihn langsam und verwirrt, weil er zu viele fast identische Bilder sieht.
Dem Roboter ein neues Gehirn einbauen: Das erfordert, ihn komplett neu zu lernen (zu trainieren), was teuer und aufwendig ist.

Die Forscher von TempoFit haben eine clevere, kostenlose Lösung gefunden. Hier ist die Erklärung, wie es funktioniert, mit einfachen Bildern:

1. Das Problem: Der „Amnesie"-Roboter

Stell dir vor, du bist ein Koch, der eine komplexe Suppe kocht. Du würfelst Gemüse, rührst um, gibst Gewürze hinzu. Aber nach jedem Schritt vergisst du, was du gerade getan hast. Du schaust nur in den Topf und fragst: „Was ist hier?" Ohne Erinnerung an die letzten Schritte machst du Fehler, wie z. B. Salz doppelt hinzuzufügen oder das Gemüse zu verbrennen.

2. Die Lösung: TempoFit – Der „Geheime Notizblock"

TempoFit ist wie ein Zettel, den man dem Koch unter die Nase hält, ohne ihn neu zu lehren.

Kein neues Gehirn: Der Roboter muss nicht neu lernen. Er behält sein altes, super-intelligentes Wissen.
Kein Videostream: Wir zeigen ihm nicht alte Videos. Das wäre zu viel Information.

Stattdessen nutzen wir etwas, das der Roboter bereits im Inneren hat: Seine „Gedanken-Spuren".

3. Wie es funktioniert (Die drei Schritte)

Schritt A: Der geheime Speicher (KV-Speicher)

Wenn der Roboter einen neuen Befehl bekommt, rechnet er im Hintergrund. Dabei entstehen für jede Schicht seines Gehirns kleine Datenpakete (man nennt sie „Keys" und „Values"). Das sind wie kurze Notizen über das, was er gerade gesehen hat.

TempoFit fängt diese Notizen in den mittleren Schichten des Gehirns ein und legt sie in einen Frischhalte-Schrank (FIFO-Speicher).
Wenn der Roboter einen Schritt weitergeht, wirft er die älteste Notiz raus und legt die neue dazu. So hat er immer einen Überblick über die letzten paar Sekunden, ohne den ganzen Film speichern zu müssen.

Schritt B: Der intelligente Abruf (K-to-K mit FGTB)

Jetzt kommt der Trick: Wenn der Roboter den nächsten Schritt plant, schaut er nicht einfach auf den ganzen Schrank.

Er fragt sich: „Welche alte Notiz passt zu dem, was ich jetzt sehe?"
Er sucht nur nach den relevanten Erinnerungen.
Der wichtige Zusatz (FGTB): Damit er nicht in der Vergangenheit stecken bleibt, gibt es eine Regel: „Je älter die Notiz, desto leiser wird sie."
- Analogie: Stell dir vor, du hörst ein Gespräch in einem Raum. Die Leute, die direkt neben dir stehen (die aktuelle Situation), sind laut. Die, die weiter weg stehen (die Vergangenheit), sind leiser. TempoFit macht die alten Erinnerungen leiser, damit der Roboter sich auf das Jetzt konzentriert, aber trotzdem weiß, was vor 2 Sekunden passiert ist.

Schritt C: Das sanfte Einfügen (Residual Loading)

Die gefundenen Erinnerungen werden dem Roboter nicht als neuer Befehl gegeben (was ihn verwirren würde). Stattdessen werden sie wie ein leiser Hintergrund-Gedanke in seine aktuelle Planung gemischt.

Es ist, als würde der Koch einen Zettel mit „Du hast gerade Salz hinzugefügt" neben den Topf legen. Er ändert nicht, wie er kocht, aber er erinnert ihn daran, was schon passiert ist.
Wichtig: Die Größe der Notizen wird genau angepasst, damit das Gehirn des Roboters nicht „überläuft" oder verwirrt wird.

4. Das Ergebnis: Der Roboter wird zum Profi

Dank TempoFit passiert Magie:

Bessere Ergebnisse: Auf Tests wie „Räume den Tisch ab" (LIBERO-LONG) oder komplexe Reihenfolgen (CALVIN) verbessert sich die Erfolgsrate des Roboters deutlich (z. B. von 92 % auf 96 %).
Schnelligkeit: Da wir keine neuen Videos berechnen müssen, bleibt der Roboter schnell. Er braucht kaum mehr Zeit als vorher.
Echtwelt-Test: Selbst auf echten Robotern, die echte Aufgaben erledigen (wie Gemüse sortieren oder Schubladen schließen), funktioniert es. Der Roboter stolpert nicht mehr über sich selbst, wenn er lange Aufgaben macht.

Zusammenfassung in einem Satz

TempoFit ist wie ein unsichtbarer Assistent, der einem super-smarten, aber vergesslichen Roboter hilft, sich an die letzten paar Schritte zu erinnern, indem er dessen eigene „Gedanken-Notizen" nutzt – ohne den Roboter neu zu programmieren oder zu verlangsamen.

Es ist die perfekte Lösung für Roboter, die lange Aufgaben erledigen sollen: Sie werden dadurch nicht nur klüger, sondern auch stabiler und zuverlässiger.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „TempoFit: Plug-and-Play Layer-Wise Temporal KV Memory for Long-Horizon Vision-Language-Action Manipulation" auf Deutsch.

1. Problemstellung

Vision-Language-Action (VLA)-Modelle haben zwar beeindruckende Leistungen bei der Ein-Schritt-Manipulation erzielt, leiden jedoch oft unter einem mangelnden Gedächtnis (Memoryless Inference). Sie treffen Entscheidungen basierend nur auf dem aktuellen Bild und der aktuellen Sprachanweisung, was eine Markovsche Annahme impliziert.

In realen, langfristigen (Long-Horizon) Roboteraufgaben ist dies jedoch problematisch, da:

Die Umgebung oft partiell beobachtbar ist (z. B. durch Verdeckungen/Occlusion).
Zustands-Aliasierung (State Aliasing) auftritt (verschiedene Zustände sehen im aktuellen Bild ähnlich aus).
Subtile visuelle Veränderungen nach einer Aktion übersehen werden.

Bestehende Lösungen versuchen dies durch Frame-Stacking (Aneinanderreihen mehrerer Bilder) zu lösen. Dies führt jedoch zu einer ineffizienten Erhöhung der visuellen Token, was die Inferenzlatenz stark erhöht und redundante Informationen (nahezu identische Pixel) hinzufügt. Andere Ansätze nutzen externe Speichermodule, erfordern jedoch oft ein Nachtrainieren (Fine-Tuning) der Modelle, was die Wiederverwendung starker, vortrainierter Einzelbild-Modelle (Single-Frame Backbones) verhindert.

Die Lücke: Es fehlt eine Methode, die starke, vortrainierte VLA-Modelle ohne Nachtraining, ohne Erweiterung des Eingabekontexts und ohne zusätzliche trainierbare Module mit einem zeitlichen Gedächtnis ausstattet.

2. Methodik: TempoFit

TempoFit ist ein trainingsfreies (training-free) Retrofit-Modul, das die interne Aufmerksamkeit (Attention) eines vortrainierten VLA-Backbones nutzt, um einen Zustandsspeicher zu implementieren. Der Ansatz besteht aus drei Hauptkomponenten:

A. Layer-Weiser FIFO KV-Speicher (Memory Write)

Anstatt Rohdaten oder neue Token zu speichern, nutzt TempoFit die internen Keys und Values (K/V) der Transformer-Aufmerksamkeit als nativen Speicher.

Selektive Schichten: Es werden nur die K/V-Zustände einer kleinen Teilmenge von mittleren Schichten (intermediate layers) des Backbones zwischengespeichert. Dies basiert auf der Erkenntnis, dass mittlere Schichten kompositorisch reichhaltige Merkmale enthalten, während tiefere Schichten zu spezifisch für das Pre-Training sind.
FIFO-Buffer: Für jede ausgewählte Schicht wird ein First-In-First-Out (FIFO)-Puffer verwendet, der die K/V-Projektionen der vorherigen Zeitschritte speichert.
Keine Eingabeänderung: Es werden keine zusätzlichen Token in die Eingabesequenz eingefügt; der Speicher existiert nur im Inferenz-Zustand.

B. K-zu-K-Abfrage mit Frame-Gap Temporal Bias (Retrieval)

Um relevante historische Informationen zu finden, nutzt TempoFit einen K-to-K Retrieval-Mechanismus:

Adressraum-Matching: Die aktuellen Keys ( $K^{(t)}$ ) werden als Abfrage (Query) verwendet, um mit den gespeicherten historischen Keys ( $K^{hist}$ ) zu vergleichen. Da dies im selben Projektionsraum wie das vortrainierte Modell erfolgt, ist es kompatibel und erfordert keine neuen Gewichte.
Frame-Gap Temporal Bias (FGTB): Um zu verhindern, dass veraltete Informationen (stale cues) die Entscheidung dominieren, wird eine feste, nicht-lernbare Verzerrung (Bias) hinzugefügt. Diese Bias bestraft den Abstand zwischen dem aktuellen Zeitschritt $t$ und dem gespeicherten Zeitpunkt $\tau$ linear. Dies stellt sicher, dass die Entscheidung gegenwärtig dominiert (present-dominant), während relevante ältere Informationen weich erhalten bleiben.

C. Norm-Erhaltende Residuelle Injection (Injection)

Die abgerufenen historischen K/V-Werte werden in den aktuellen Zustand injiziert, bevor die Standard-Selbstaufmerksamkeit stattfindet:

Residuelle Addition: Die historischen Werte werden additiv zu den aktuellen Werten hinzugefügt ( $\tilde{K} = K + K^{ctx}$ ).
Norm-Erhaltung: Da eine einfache Addition die Verteilung der K/V-Werte verschieben und die Softmax-Stabilität stören könnte, wird eine norm-erhaltende Reskalierung angewendet. Dies projiziert den fusionierten Tensor zurück auf die ursprüngliche $\ell_2$ -Norm der aktuellen Token. Dies verhindert Verteilungsverschiebungen (Distribution Shift) unter den eingefrorenen Gewichten.

3. Schlüsselbeiträge

TempoFit Framework: Ein plug-and-play Modul, das vortrainierte VLA-Policies ohne Parameter-Updates, ohne Änderung des Trainingsziels und ohne Erweiterung des Eingabekontexts um ein zeitliches Gedächtnis erweitert.
Layer-Weise KV-Native Retrieval: Ein neuer Operator, der interne Attention-Zustände wiederverwendet, kombiniert mit dem FGTB, der als feste Verzerrung veraltetes Gedächtnis unterdrückt und Interferenzen minimiert.
Effizienz und Skalierbarkeit: Die Methode fügt nur einen vernachlässigbaren Overhead hinzu und skaliert besser als Frame-Stacking, da sie keine zusätzlichen visuellen Token verarbeitet.

4. Ergebnisse

Die Methode wurde auf mehreren Benchmarks und realen Robotern evaluiert:

LIBERO-LONG Benchmark:
- TempoFit verbesserte den starken vortrainierten Backbone $\pi_0.5$ von 92,6 % auf 96,6 % (+4,0 % absolut).
- Beim QwenGR00T-Modell stieg die Erfolgsrate von 90,8 % auf 94,4 % (+3,6 %).
- Dies übertrifft trainierte zeitliche Modelle wie MemoryVLA und HiF-VLA, obwohl TempoFit kein Nachtraining erfordert.
CALVIN Benchmark:
- In der in-domänischen Einstellung (D-D) stieg die durchschnittliche Aufgabenlänge von 3,78 auf 3,84.
- In der cross-domänischen Einstellung (ABC-D) stieg sie von 3,83 auf 3,87.
- Die Verbesserungen waren besonders bei späteren Anweisungen in langen Sequenzen spürbar.
Echtwelt-Robotik (Realman RM-65B):
- In realen Experimenten mit langfristigen Manipulationsaufgaben (z. B. Objekte sortieren, Tische reinigen) verbesserte TempoFit die Gesamterfolgsrate um durchschnittlich +9,5 %.
- Es reduzierte signifikant das Scheitern in späteren Phasen von Aufgaben, die durch Zustands-Aliasierung (z. B. identische Objekte) verursacht wurden.
Effizienz:
- Die Inferenz-Latenz blieb nahezu unverändert (z. B. 71,2 ms vs. 74,4 ms bei 8 Frames History im Vergleich zu 176,3 ms bei Frame-Stacking).
- Der Speicherverbrauch stieg nur minimal an.

5. Bedeutung und Fazit

TempoFit schließt eine wichtige Lücke in der Robotik, indem es zeigt, dass zeitliche Konsistenz in VLA-Modellen nicht durch teures Nachtraining oder ineffiziente Frame-Stacking-Verfahren erreicht werden muss. Durch die intelligente Wiederverwendung interner Attention-Zustände (K/V) ermöglicht es die sofortige Verbesserung starker, vortrainierter Modelle für komplexe, langfristige Aufgaben.

Die Arbeit demonstriert, dass ein zustandsbasiertes Gedächtnis (state-level memory) effizienter und robuster ist als ein eingabe-basiertes Gedächtnis (input-level memory). Dies ebnet den Weg für den breiteren Einsatz von VLA-Modellen in realen Umgebungen, wo Zuverlässigkeit über lange Zeiträume entscheidend ist, ohne die Echtzeitfähigkeit zu opfern.