TempoFit: Plug-and-Play Layer-Wise Temporal KV Memory for Long-Horizon Vision-Language-Action Manipulation

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un robot molto intelligente, un "cuoco" o un "magazziniere" digitale, che è stato addestrato con milioni di video per capire come muovere le mani, afferrare oggetti e seguire istruzioni. Questo robot è basato su un modello chiamato VLA (Vision-Language-Action).

Il problema? Questo robot è un po' come un amnesia acuta. È bravissimo a fare un singolo movimento alla volta ("prendi il cucchiaio"), ma se deve fare una sequenza complessa ("prendi il cucchiaio, mettilo nel piatto, poi prendi la forchetta"), tende a dimenticare cosa ha fatto due secondi fa. Se un oggetto viene nascosto da un altro o se il cambiamento è sottile, il robot si confonde, ripete gli stessi movimenti o si blocca. È come se guardasse il mondo solo attraverso una telecamera che scatta una foto ogni secondo, senza ricordare la foto precedente.

Gli scienziati hanno provato a risolvere questo problema in due modi, ma entrambi avevano dei difetti:

Inviare più foto: Dargli una sequenza di 4 o 5 foto passate. Ma questo rende il robot lento e confuso, perché deve elaborare troppi pixel quasi identici (come guardare 5 foto di un muro bianco).
Insegnargli a ricordare: Addestrarlo da zero con una nuova memoria. Ma questo richiede tempo, soldi e spesso rompe la sua intelligenza originale, rendendolo meno bravo in compiti semplici.

La Soluzione: TempoFit (Il "Notebook" Magico)

Gli autori di questo paper, TempoFit, hanno trovato una soluzione geniale, gratuita e istantanea, che non richiede di riaddestrare il robot. Immagina di non dover cambiare il cervello del robot, ma di dargli semplicemente un piccolo quaderno degli appunti che legge mentre lavora.

Ecco come funziona, spiegato con analogie semplici:

1. Il "Cervello" ha già una memoria nascosta

Quando il robot guarda un'immagine, il suo cervello (la rete neurale) crea una serie di "note interne" (chiamate Key e Value) per capire cosa sta vedendo. Di solito, queste note vengono scartate immediatamente dopo aver deciso il movimento.
TempoFit dice: "Aspetta! Non buttare queste note. Mettile in un cassetto (una memoria FIFO)". È come se il robot tenesse traccia dei suoi pensieri recenti senza doverli scrivere su un foglio nuovo.

2. Il "Cassetto" intelligente (Livello per Livello)

Il cervello del robot è fatto di molti strati (come i livelli di una torta). Non tutti i livelli sono uguali.

I livelli bassi vedono solo bordi e colori.
I livelli alti capiscono concetti complessi.
I livelli intermedi sono il "punto dolce": capiscono bene gli oggetti e le relazioni.
TempoFit apre il cassetto solo in questi livelli intermedi. Se aprissimo il cassetto ovunque, il robot si confonderebbe con troppe informazioni. È come scegliere di tenere gli appunti importanti solo sul tavolo di lavoro, non in ogni stanza della casa.

3. La "Bussola del Tempo" (FGTB)

C'è un rischio: se il robot guarda il suo quaderno, potrebbe ricordare cose vecchie e inutili (es. "ho preso il cucchiaio 10 minuti fa, quando stavo ancora a casa").
Per evitare questo, TempoFit usa una Bussola del Tempo (Frame-Gap Temporal Bias). È come un filtro che dice: "Le cose successe 5 secondi fa sono molto importanti, quelle di 10 secondi fa sono un po' meno, quelle di 30 secondi fa sono quasi irrilevanti".
In pratica, dà più peso a ciò che è appena successo, mantenendo il robot concentrato sul "qui e ora", ma con un leggero ricordo del passato.

4. L'Iniezione "Silenziosa"

Una volta che il robot legge le note giuste dal suo cassetto, le mescola con la sua visione attuale. Ma lo fa in modo molto delicato: non cambia la sua "forma" o il suo peso (perché non vogliamo riaddestrarlo). È come se aggiungesse un po' di sale a una zuppa già pronta per esaltarne il sapore, senza trasformarla in un'altra pietanza.

Perché è una rivoluzione?

Plug-and-Play: Non serve riaddestrare il robot. È come comprare un nuovo accessorio per la tua auto che si monta in 5 minuti e migliora la sicurezza senza toccare il motore.
Veloce: Non rallenta il robot. Anzi, è molto più veloce che dargli 5 foto da guardare.
Funziona davvero: Nei test, robot che prima fallivano il 40% delle volte in compiti lunghi, ora riescono quasi sempre. Su un robot reale, ha permesso di completare compiti complessi (come pulire una scrivania e mettere via oggetti) che prima facevano bloccare il sistema.

In sintesi

TempoFit è come dare a un genio con l'amnesia un promemoria intelligente. Non gli insegna nulla di nuovo, non lo rallenta, ma gli permette di collegare i puntini tra un'azione e l'altra, trasformando un robot che fa solo "movimenti singoli" in un assistente capace di completare missioni lunghe e complesse senza perdersi nel mezzo. È un upgrade software che sblocca il vero potenziale di robot che avevamo già, ma che non sapevamo come far funzionare bene nel mondo reale.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: La Limitazione Temporale dei Modelli VLA

I modelli Vision-Language-Action (VLA) pre-addestrati hanno ottenuto risultati eccellenti nella manipolazione robotica a singolo passo. Tuttavia, la loro inferenza è prevalentemente senza memoria (memoryless) e segue un paradigma decisionale basato su un singolo fotogramma.

Ambiente Non-Markoviano: Le operazioni robotiche reali sono spesso parzialmente osservabili e non-Markoviane. Un singolo fotogramma corrente può non essere sufficiente per determinare l'azione corretta in presenza di:
- Occlusioni.
- Aliasing degli stati (situazioni visivamente simili ma semanticamente diverse).
- Cambiamenti visivi sottili dopo un'azione.
Limiti delle Soluzioni Esistenti:
- Stacking di fotogrammi: Aumenta il numero di token visivi e la latenza di inferenza, introducendo ridondanza (pixel quasi duplicati) che può oscurare le dinamiche rilevanti.
- Interfacce temporali apprese: Richiedono ri-addestramento o fine-tuning, rompendo il grafo di inferenza originale e rendendo difficile l'adattamento "plug-and-play" a modelli VLA pre-addestrati con pesi congelati.

Esiste quindi un vuoto: manca un metodo per potenziare i VLA pre-addestrati con la consapevolezza storica senza espandere il contesto di input, introdurre moduli addestrabili o richiedere ulteriore training.

2. Metodologia: TempoFit

TempoFit è un retrofit temporale free-from-training (senza addestramento) che migliora la coerenza temporale riutilizzando lo stato interno di attenzione del modello. L'idea chiave è trattare le chiavi e i valori (K/V) dell'attenzione dei prefissi come una memoria nativa del modello.

Componenti Principali:

Cache KV FIFO a Livello di Strato (Layer-Wise FIFO KV Cache):
- Invece di memorizzare fotogrammi grezzi, il sistema memorizza le proiezioni K/V dei token di prefisso (osservazione + istruzione) generate durante la codifica.
- La memoria viene attivata solo in un sottoinsieme selezionato di strati intermedi della rete Transformer. Questo bilancia la continuità temporale minimizzando l'interferenza con il controllo dello stato corrente (gli strati profondi sono troppo specializzati, quelli superficiali troppo generici).
- Utilizza un buffer FIFO (First-In-First-Out) di capacità limitata per mantenere solo la storia recente.
Recupero K-to-K (K-to-K Retrieval):
- Il recupero della memoria avviene tramite matching nello spazio degli indirizzi. Le chiavi correnti ( $K^{(t)}$ ) vengono utilizzate come query per cercare chiavi storiche ( $K^{hist}$ ) nello stesso spazio di proiezione in cui il modello pre-addestrato esegue l'attenzione.
- Questo approccio è "model-native": non richiede nuovi pesi o proiezioni di query apprese, garantendo la compatibilità con la geometria dell'attenzione pre-addestrata.
Bias Temporale Frame-Gap (FGTB - Frame-Gap Temporal Bias):
- Per evitare che la memoria recuperi informazioni obsolete (stale cues) e causi interferenze, viene introdotto un bias temporale fisso.
- Ispirato ai bias posizionali nell'NLP (come ALiBi), FGTB impone un decadimento lineare sui punteggi di recupero basato sul numero di fotogrammi trascorsi ( $|t - \tau|$ ).
- Questo garantisce che le decisioni rimangano dominanti sul presente, sopprimendo il contesto storico irrilevante senza bisogno di gate appresi.
Iniezione tramite Caricamento Residuo Norm-Preserving:
- Il contesto recuperato viene fuso con lo stato corrente tramite un aggiornamento residuo: $\tilde{K} = K + K_{ctx}$ .
- Per evitare uno spostamento della distribuzione (distribution shift) che destabilizzerebbe i pesi congelati, viene applicata una ridimensionamento che preserva la norma L2. Questo proietta il tensore fuso sulla stessa norma dei token originali, permettendo alla storia di "guidare" le associazioni senza alterare la scala.

3. Contributi Chiave

Retrofit Temporale senza Training: Un modulo di inferenza che rende i VLA pre-addestrati consapevoli della storia senza modificare i parametri del modello, gli obiettivi di training o la lunghezza del contesto di input.
Operatore di Recupero e Iniezione Nativo: Un metodo che riutilizza lo stato K/V interno del modello, combinato con il FGTB, per sopprimere il contesto obsoleto e ridurre l'interferenza storia-presente.
Efficienza e Scalabilità: La soluzione mantiene la latenza di inferenza vicina al tempo reale, evitando l'esplosione computazionale tipica dello stacking di fotogrammi.

4. Risultati Sperimentali

Il metodo è stato valutato su benchmark di manipolazione a lungo raggio e su robot reali.

Benchmark LIBERO-LONG:

Miglioramento delle Prestazioni: Su backbone pre-addestrati forti (come $\pi0.5$ e QwenGR00T), TempoFit ha aumentato il tasso di successo medio (SR) rispettivamente del +4.0% (da 92.6% a 96.6%) e del +3.6% (da 90.8% a 94.4%).
Confronto con SOTA: Le prestazioni superano o sono competitive con approcci basati su training (come MemoryVLA e HiF-VLA), pur rimanendo plug-and-play.
Robustezza: I miglioramenti sono particolarmente evidenti in sottobiettivi che richiedono associazioni temporali rigorose (es. "Metti entrambe le pentole sul fornello").

Benchmark CALVIN:

Esecuzione Sequenziale: In entrambi i setting (in-domain D-D e cross-domain ABC-D), TempoFit ha aumentato la lunghezza media delle task completate con successo (es. da 3.78 a 3.84 in D-D).
Gestione a Lungo Termine: I guadagni sono più marcati nelle istruzioni successive, indicando una migliore ritenzione dello stato a lungo termine e una migliore disambiguazione degli stati.

Efficienza di Inferenza:

Latenza: L'overhead è trascurabile. Su GPU RTX5090, l'aggiunta di una memoria di 8 fotogrammi aumenta la latenza solo dal 71.2ms (baseline) a 74.4ms (TempoFit), contro i 176.3ms richiesti dallo stacking di 8 fotogrammi.
Memoria: L'uso della memoria rimane stabile (~6.6 GB) rispetto al 45.9 GB richiesti dallo stacking di 8 frame.

Valutazione nel Mondo Reale (Realman RM-65B):

Su tre task a lungo raggio (es. pulire una scrivania, organizzare oggetti), TempoFit ha migliorato il tasso di successo completo delle task del +9.5% in media, risolvendo problemi di stallo e ripetizione di azioni causati dall'aliasing degli stati.

5. Significato e Impatto

TempoFit rappresenta un cambio di paradigma nell'adattamento dei modelli VLA per la robotica:

Democratizzazione dell'Intelligenza Temporale: Permette di dotare modelli VLA pre-addestrati e potenti di capacità di ragionamento temporale senza i costi computazionali e di dati del ri-addestramento.
Efficienza Operativa: Risolve il compromesso tra "memoria" e "velocità", rendendo fattibile l'uso di modelli complessi in loop di controllo robotico in tempo reale.
Robustezza: Dimostra che la memoria può essere gestita efficacemente a livello di stato interno (KV cache) piuttosto che a livello di input grezzo, preservando la distribuzione dei dati su cui il modello è stato addestrato.

In sintesi, TempoFit offre una soluzione elegante e pratica per colmare il divario tra l'iper-specializzazione dei modelli VLA attuali e le esigenze di coerenza temporale richieste dalla manipolazione robotica complessa nel mondo reale.