Critic in the Loop: A Tri-System VLA Framework for Robust Long-Horizon Manipulation

Il paper presenta "Critic in the Loop", un framework gerarchico adattivo che integra un modello VLM per la pianificazione semantica, un modello VLA per l'esecuzione reattiva e un critico visivo per il monitoraggio dinamico, permettendo ai robot di gestire compiti di manipolazione a lungo orizzonte con maggiore robustezza ed efficienza riducendo le query costose al VLM.

Pengfei Yi, Yingjie Ma, Wenjiang Xu, Yanan Hao, Shuai Gan, Wanting Li, Shanlin Zhong

Pubblicato 2026-03-06
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover insegnare a un robot a pulire una stanza disordinata. Se gli dici semplicemente "pulisci la stanza", cosa succede?

  • L'approccio vecchio (Sistema Doppio): Il robot ha un "cervello" lento che pensa a cosa fare, e un "muscolo" veloce che esegue. Il problema è che il cervello deve parlare al muscolo ad ogni singolo movimento. È come se tu dovessi fermarti ogni volta che muovi un dito per chiedere al tuo cervello: "Ok, ora alzo il pollice di 2 millimetri?". Risultato? Il robot è lento, si blocca spesso e se succede qualcosa di imprevisto (come un oggetto che cade), impiega troppo tempo a riprendersi.
  • Il nostro approccio (Critic in the Loop / Tri-System): Abbiamo creato un robot con tre parti che lavorano insieme in modo intelligente, come un'azienda ben organizzata.

Ecco come funziona, spiegato con un'analogia semplice:

1. Il "Cervello" (System Two) – Il Pianificatore

Immagina un capo progetto esperto che sta in una stanza tranquilla.

  • Cosa fa: Non tocca mai i robot. Si siede, guarda la situazione e dice: "Ok, prima dobbiamo raccogliere i piatti, poi i bicchieri".
  • Il trucco: Lavora solo quando serve. Non si sveglia per ogni piccolo movimento. È lento ma molto intelligente e capisce il contesto globale.

2. Il "Cervelletto" (System One) – L'Esecutore

Immagina un operaio velocissimo che ha una memoria muscolare perfetta.

  • Cosa fa: Riceve l'ordine dal Capo ("Prendi quel piatto blu") e lo esegue all'istante, con movimenti fluidi e rapidi.
  • Il trucco: È velocissimo (20 volte al secondo!), ma non "pensa". Se il Capo non gli dà nuovi ordini, continua a fare quello che sta facendo. Non si perde in discussioni mentre lavora.

3. Il "Critico" (System Three) – L'Ispettore Vigilante

Qui sta la vera magia. Immagina un ispettore di sicurezza che ha gli occhi puntati su tutto, 24 ore su 24.

  • Cosa fa: Guarda costantemente cosa sta facendo l'operaio. Non deve pensare come farlo, ma solo se sta andando bene.
  • Le sue funzioni:
    • Se tutto va bene: Lascia lavorare l'operaio senza disturbare il Capo.
    • Se succede un disastro (es. un bicchiere cade): L'ispettore urla "STOP! INCIDENTE!" e sveglia immediatamente il Capo per un nuovo piano.
    • Se il robot è bloccato: Se l'operaio prova a prendere un oggetto per 10 secondi senza riuscirci (un "loop infinito"), l'ispettore dice: "Ehi, stai girando a vuoto! Fermati, torna indietro e riprova".

Perché è così geniale?

In passato, i robot erano come un automobilista che deve guardare la mappa (il cervello) ogni secondo per decidere se girare a destra o sinistra. Si stancano e fanno errori.

Il nostro sistema è come un pilota esperto con un copilota e un controllore di volo:

  1. Il Pilota (Cervelletto) guida l'auto a tutta velocità seguendo la strada.
  2. Il Controllore (Critico) guarda lo schermo radar. Se vede un ostacolo o se il pilota sembra bloccato in un vicolo cieco, chiama il Capo (Cervello).
  3. Il Capo disegna una nuova rotta e la passa al Pilota.

I vantaggi nella vita reale:

  • Velocità: Il robot è veloce perché il "pensiero" pesante non blocca i "muscoli".
  • Robustezza: Se il robot si blocca (cosa che succede spesso quando prova cose nuove), l'ispettore lo fa "resettare" e riprovare, invece di lasciarlo impazzire in un loop infinito.
  • Adattabilità: Il robot riesce a fare cose che non ha mai visto prima (come usare il braccio sinistro per un bicchiere, anche se è stato addestrato solo sul destro), perché l'ispettore nota che la strategia attuale non funziona e chiede al cervello di trovare una soluzione creativa.

In sintesi, abbiamo creato un robot che pensa quando serve, agisce quando può, e si rende conto se sta sbagliando, proprio come farebbe un essere umano intelligente.