TempoFit: Plug-and-Play Layer-Wise Temporal KV Memory for Long-Horizon Vision-Language-Action Manipulation

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous donnez des instructions à un robot pour ranger une chambre. Si vous lui dites "mets le livre sur l'étagère", il le fait. Mais si vous lui donnez une longue liste de tâches complexes, comme "ranger les livres, puis laver la vaisselle, puis nettoyer le sol", le robot risque de se perdre. Pourquoi ? Parce que la plupart des robots intelligents d'aujourd'hui ont une mémoire très courte. À chaque instant, ils regardent la photo actuelle et oublient tout ce qui s'est passé avant. C'est comme essayer de cuisiner un grand repas en ne regardant que l'ingrédient que vous tenez dans votre main à l'instant T, sans se souvenir d'avoir déjà coupé les oignons ou allumé le four.

C'est là qu'intervient TempoFit, une nouvelle invention présentée dans cet article. Voici comment cela fonctionne, expliqué simplement :

1. Le Problème : Le Robot Amnésique

Les robots actuels sont très forts pour une seule action, mais ils deviennent "amnésiques" sur les longues tâches.

L'ancienne solution (empiler les photos) : Pour aider le robot à se souvenir, les chercheurs lui montraient les 5 ou 10 dernières photos prises par sa caméra. C'est comme lui montrer un album photo complet à chaque fois qu'il doit agir. Le problème ? C'est lourd, lent, et le robot se noie dans des détails inutiles (comme voir le même mur 10 fois de suite).
Le problème des solutions actuelles : Pour ajouter de la mémoire, il fallait souvent réapprendre tout le cerveau du robot, ce qui est long et coûteux.

2. La Solution TempoFit : Le "Post-it" Intelligent

TempoFit est une astuce géniale qui permet d'ajouter de la mémoire au robot sans le réapprendre et sans le ralentir.

Imaginez que le cerveau du robot (son réseau de neurones) est une bibliothèque immense. Quand le robot regarde une image, il crée des "fiches de notes" (appelées K/V dans le jargon technique) pour comprendre ce qu'il voit.

L'idée brillante : Au lieu de jeter ces fiches après chaque instant, TempoFit les garde dans un tiroir spécial (une mémoire tampon).
Le mécanisme : À chaque nouvelle action, le robot va chercher dans ce tiroir les fiches des moments précédents qui sont les plus utiles pour la tâche actuelle. C'est comme si le robot disait : "Attends, il y a 3 secondes, j'ai pris cette tasse. Je dois me souvenir de ça pour ne pas la renverser maintenant."

3. Les Trois Astuces Magiques de TempoFit

Pour que cela fonctionne parfaitement, TempoFit utilise trois ingrédients secrets :

A. La Mémoire Sélective (Le Tiroir Intelligent) :
Le robot ne garde pas toutes les notes de toutes les parties de son cerveau. TempoFit choisit seulement quelques tiroirs intermédiaires (des couches spécifiques) où l'information est la plus utile. C'est comme ne garder que les recettes importantes dans un classeur, plutôt que d'empiler tout le courrier. Cela évite de surcharger le robot.
B. Le Filtre "Récence" (La Règle du "Plus Récents, Plus Importants") :
Si le robot se souvient de tout, il risque de se souvenir d'un événement vieux de 10 minutes qui n'a plus d'importance. TempoFit utilise une règle simple (appelée Frame-Gap Temporal Bias) : plus un souvenir est vieux, moins il a de poids. C'est comme un aimant qui attire les souvenirs récents et repousse les souvenirs lointains. Cela empêche le robot de se laisser distraire par des détails obsolètes.
C. L'Injection Discrète (Le Remplissage Invisible) :
Comment ajouter ces souvenirs sans casser le cerveau du robot ? TempoFit ne change pas la structure du robot. Il "injecte" les souvenirs directement dans le flux de pensée actuel, en ajustant très légèrement les notes existantes. C'est comme ajouter une pincée de sel dans une soupe déjà cuite pour en rehausser le goût, sans avoir à refaire la soupe.

4. Les Résultats : Un Robot Plus Robuste

Les tests montrent que cette méthode fonctionne incroyablement bien :

Sur des simulations : Les robots réussissent beaucoup mieux des tâches longues et complexes (comme ranger une cuisine entière) sans avoir besoin d'être réentraînés.
Sur de vrais robots : Sur un bras robotique réel, TempoFit a permis de réussir des tâches en plusieurs étapes (comme ranger des bols dans un tiroir) là où le robot sans mémoire échouait souvent en se perdant au milieu du chemin.
Vitesse : Le robot reste aussi rapide qu'avant. Il n'a pas besoin de "penser" plus longtemps, il a juste un meilleur accès à ses souvenirs.

En Résumé

TempoFit est comme un casque de réalité augmentée pour la mémoire d'un robot. Il ne change pas la façon dont le robot voit le monde, mais il lui donne la capacité de se souvenir intelligemment de ce qu'il vient de faire, juste au bon moment, sans le ralentir ni le confondre. C'est une mise à jour logicielle "plug-and-play" (branchez et jouez) qui rend les robots beaucoup plus fiables pour les tâches de la vie réelle.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles récents de Vision-Language-Action (VLA) pré-entraînés ont démontré une grande efficacité pour la manipulation robotique à court terme (étape unique). Cependant, leur mécanisme d'inférence reste largement sans mémoire (memoryless), suivant un paradigme de décision par image unique. Cette approche suppose implicitement un environnement markovien, ce qui est rarement le cas dans la réalité robotique où les tâches sont :

Partiellement observables (occlusions, aliasing d'état).
Non markoviennes (l'action actuelle dépend de l'historique).
Sujettes à des changements visuels subtils post-action.

Les approches existantes pour intégrer l'historique souffrent de deux limites majeures :

Empilement de frames (Frame Stacking) : Augmente considérablement le nombre de tokens visuels, la latence d'inférence et introduit une redondance de pixels quasi-doubles.
Interfaces temporelles apprises : Nécessitent un ré-entraînement ou un fine-tuning, ce qui brise la compatibilité avec les modèles pré-entraînés puissants et limite le déploiement « plug-and-play ».

Il existe donc un besoin critique d'une méthode d'amélioration temporelle qui soit sans entraînement (training-free), n'augmente pas la longueur du contexte d'entrée, et soit compatible avec les poids gelés des modèles VLA existants.

2. Méthodologie : TempoFit

TempoFit est un module de rétrofit temporel qui transforme les modèles VLA pré-entraînés en systèmes conscients de l'historique en réutilisant leur état interne d'attention (les clés et valeurs, K/V) sans modifier les paramètres du modèle.

A. Architecture et Principes Clés

Le système fonctionne en trois étapes principales au sein des couches intermédiaires du backbone VLA :

Mémoire FIFO par Couche (Layer-Wise FIFO KV Cache) :
- Au lieu de stocker des images brutes, TempoFit cache les projections K/V (Clés/Valeurs) générées lors du codage des tokens préfixes (observation + instruction) à un sous-ensemble sélectionné de couches intermédiaires du Transformer.
- Ces caches sont gérés comme des files d'attente (FIFO) pour maintenir une fenêtre temporelle glissante sans expansion du contexte d'entrée.
Récupération K-to-K avec Biais Temporel (FGTB) :
- Récupération : Pour l'étape actuelle $t$ , les clés actuelles $K^{(t)}$ servent de requêtes pour rechercher des clés historiques $K^{hist}$ dans le cache. Cette correspondance K-to-K (Clé-vers-Clé) se fait dans l'espace d'adressage natif du modèle pré-entraîné, garantissant la compatibilité sans nouveaux modules apprenants.
- Biais Temporel (Frame-Gap Temporal Bias - FGTB) : Pour éviter que l'historique ancien ne domine les décisions (interférence), un biais additif fixe est appliqué aux scores de similarité. Inspiré des biais positionnels en NLP (comme ALiBi), ce biais pénalise linéairement les écarts de temps ( $|t - \tau|$ ), assurant que l'observation actuelle reste dominante tout en conservant un accès doux aux preuves historiques pertinentes.
Injection par Chargement Résiduel (Norm-Preserving Residual Loading) :
- Le contexte récupéré est injecté dans l'état actuel via une mise à jour résiduelle : $\tilde{K} = K + K_{ctx}$ et $\tilde{V} = V + V_{ctx}$ .
- Normalisation : Pour éviter un décalage de distribution (distribution shift) qui pourrait déstabiliser les couches gelées, une mise à l'échelle préservant la norme L2 est appliquée. Cela permet d'orienter les associations K/V sans en modifier l'amplitude globale, assurant la stabilité de l'inférence.

3. Contributions Principales

Rétrofit Temporel Sans Entraînement : TempoFit améliore la cohérence temporelle des politiques VLA pré-entraînées sans modifier les poids du modèle, les objectifs d'entraînement ou la longueur du contexte d'entrée.
Opérateur de Récupération Natif (K-to-K) : Introduction d'un mécanisme de récupération qui réutilise l'espace d'adressage des clés du modèle, éliminant le besoin d'interfaces externes apprises.
Biais Temporel Fixe (FGTB) : Une stratégie simple et interprétable pour supprimer les contextes obsolètes sans apprendre de portes (gates).
Injection Stable : Une méthode de fusion résiduelle avec préservation de la norme qui permet d'injecter l'historique sans perturber la dynamique d'inférence originale.

4. Résultats Expérimentaux

Les évaluations ont été menées sur des benchmarks de manipulation à long horizon et des robots réels.

A. Benchmarks Simulés

LIBERO-LONG :
- Sur le backbone π0.5, le taux de réussite moyen passe de 92,6 % à 96,6 % (+4,0 %).
- Sur le backbone QwenGR00T, il passe de 90,8 % à 94,4 % (+3,6 %).
- Ces performances surpassent ou égalent des méthodes nécessitant un ré-entraînement (comme MemoryVLA ou HiF-VLA) tout en restant plug-and-play.
CALVIN (D-D et ABC-D) :
- Amélioration de la longueur moyenne des tâches réussies (ex: de 3,78 à 3,84 sur D-D).
- Les gains sont particulièrement visibles sur les instructions tardives, démontrant une meilleure rétention à long terme.

B. Efficacité et Latence

Latence : TempoFit ajoute une surcharge négligeable. Sur LIBERO-LONG, la latence passe de 71,2 ms (base) à 73,4 ms (avec mémoire de 4 frames), contre 94,8 ms pour l'empilement de frames.
Mémoire : L'utilisation de la mémoire GPU reste stable (~6,4 Go) comparée à l'explosion de mémoire de l'empilement de frames (jusqu'à 45 Go pour 8 frames).

C. Robots Réels (Realman RM-65B)

Sur trois tâches complexes (placement d'objets, nettoyage de bureau, rangement), TempoFit améliore le taux de réussite global de +9,5 % en moyenne.
Il résout efficacement les problèmes d'aliasing d'état (ex: distinguer deux bols identiques) et évite les répétitions d'actions ou les blocages en fin de séquence.

D. Études d'Ablation

Sélection de couches : L'activation de la mémoire uniquement sur les couches intermédiaires est cruciale. Activer toutes les couches ou seulement les couches profondes/débutantes dégrade les performances.
Récupération : La méthode K-to-K est nettement supérieure à la méthode Q-to-K (requête-vers-clé) dans un contexte de poids gelés.
Injection : Le chargement résiduel avec préservation de la norme est essentiel ; sans cela, les performances chutent drastiquement.

5. Signification et Impact

TempoFit représente une avancée significative pour le déploiement de robots intelligents :

Accessibilité : Il permet de débloquer le potentiel temporel de modèles VLA de pointe (comme π0 ou OpenVLA) sans coût de ré-entraînement coûteux ou risque d'oubli catastrophique (catastrophic forgetting).
Efficacité : En évitant l'expansion du contexte d'entrée, il maintient une latence proche du temps réel, condition sine qua non pour le contrôle robotique en boucle fermée.
Généralité : L'approche « plug-and-play » suggère que l'état interne des Transformers contient déjà des traces riches de contexte temporel, qu'il suffit de réutiliser intelligemment plutôt que d'apprendre de nouvelles interfaces.

En résumé, TempoFit offre une solution élégante et efficace pour transformer des politiques robotiques « aveugles » en agents capables de raisonner sur l'historique, rendant la manipulation à long horizon plus robuste et fiable.