ReViP: Mitigating False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está ensinando um robô a fazer uma tarefa simples, como pegar uma maçã e colocá-la numa tigela. Você dá a ordem: "Pegue a maçã e coloque na tigela".

O robô começa a mover o braço. De repente, a maçã escorrega da garra e cai no chão.

Um ser humano veria a maçã no chão, pararia, pegaria a maçã de novo e continuaria a tarefa. Mas, segundo este novo estudo, muitos robôs inteligentes de hoje (chamados de modelos VLA) agem de forma estranha: eles não veem a maçã cair. Eles continuam movendo o braço para a tigela vazia, como se a maçã ainda estivesse segura, e quando chegam lá, dizem: "Tarefa concluída com sucesso!", mesmo que a maçã esteja no chão.

O papel chama isso de "Conclusão Falsa". É como se o robô estivesse tão focado no que acha que está fazendo (sua "memória" de movimento) que ignora o que seus "olhos" estão realmente vendo.

O Problema: O Robô Confia Demais na "Memória" e Pouco na "Visão"

Os pesquisadores descobriram que esses robôs têm um desequilíbrio. Eles são como um motorista que fecha os olhos e dirige apenas lembrando do caminho, ignorando se há um buraco na estrada ou se um pedestre cruzou a rua. Eles confiam demais nos sensores internos (que dizem "estou segurando a maçã") e ignoram as câmeras (que dizem "a maçã caiu").

A Solução: ReViP (O "Co-piloto" Consciente)

Para consertar isso, os autores criaram algo chamado ReViP. Pense no ReViP como um co-piloto muito atento que viaja junto com o robô.

O Observador (O Olho Vigilante): O ReViP tem um "co-piloto" (um modelo de inteligência artificial externo) que fica olhando a cena o tempo todo. Se a maçã cair, esse co-piloto grita: "Ei! A maçã caiu! O plano mudou! Você não está segurando nada mais!"
O Equilíbrio (Rebalanceamento): Em vez de o robô ignorar esse aviso, o ReViP força o robô a ouvir. Ele ajusta o "volume" do que o robô pensa. Ele diminui o volume da "memória interna" (que diz "tudo certo") e aumenta o volume da "visão" (que diz "olhe para o chão").
A Ação Correta: Com esse novo equilíbrio, quando a maçã cai, o robô para, olha para o chão, pega a maçã de novo e só então continua para a tigela.

O "Campo de Treino" (O Benchmark)

Antes de testar a solução, os pesquisadores precisavam de uma maneira justa de ver se os robôs estavam cometendo esse erro. Eles criaram o primeiro "Campeonato de Conclusão Falsa".

Eles inventaram três tipos de "pegadinhas" para testar os robôs:

A Queda (Object Drop): Deixar o objeto cair no meio da tarefa.
A Troca (Distractor Swap): Trocar o objeto certo por um parecido (ex: trocar a maçã vermelha por uma verde) e ver se o robô percebe.
A Mudança de Lugar (Relayout): Mover a mesa ou a tigela para outro lugar e ver se o robô se adapta ou se continua indo para o lugar antigo.

Os Resultados

Os testes foram feitos tanto em simulação de computador quanto com robôs reais no laboratório.

Sem ReViP: Os robôs antigos (como o modelo $\pi_0$ ) continuavam agindo como cegos, declarando sucesso mesmo quando falhavam.
Com ReViP: Os robôs conseguiram detectar os erros, corrigir o curso e completar a tarefa de verdade. A taxa de sucesso aumentou drasticamente (em alguns casos, de 36% para quase 60% ou mais).

Resumo em uma Metáfora Final

Imagine que você está cozinhando e a receita diz "frite o ovo".

O Robô Antigo: Ele pega o ovo, joga na frigideira, mas o ovo escorrega e cai no chão. Ele continua mexendo a frigideira vazia e diz: "Pronto, o ovo está frito!", ignorando o ovo no chão.
O Robô com ReViP: Ele vê o ovo no chão, para, pega o ovo de novo, coloca na frigideira e só então diz: "Pronto, o ovo está frito".

O ReViP ensina o robô a olhar para o mundo real em vez de apenas seguir um roteiro mental cego, tornando-os mais seguros, inteligentes e úteis para tarefas do dia a dia.

Each language version is independently generated for its own context, not a direct translation.

Título: ReViP: Mitigando a Conclusão Falsa em Modelos Visão-Linguagem-Ação com Reequilíbrio Visão-Propriocepção

1. O Problema: Conclusão Falsa (False Completion)

O artigo identifica um modo de falha crítico em Modelos Visão-Linguagem-Ação (VLA) para manipulação robótica, denominado "Conclusão Falsa" (False Completion).

Definição: Ocorre quando uma política robótica declara que a tarefa foi concluída com sucesso (ou para a execução), mesmo que o objetivo visual não tenha sido alcançado.
Causa Raiz: O problema é atribuído a um desequilíbrio de modalidades (modality imbalance). As políticas atuais tendem a ter um viés dominante de estado (state-dominant bias), priorizando excessivamente a sequência interna de propriocepção (posição das juntas, estado do gripper) em detrimento das evidências visuais externas.
Exemplo Prático: Se um objeto cai durante a execução, o robô pode continuar a trajetória planejada para a região de destino e declarar sucesso, ignorando o fato de que o objeto não está mais na garra. Isso contradiz o senso comum humano de que a tarefa só está completa se o objeto estiver no local correto.

2. Metodologia: Framework ReViP

Para resolver esse problema, os autores propõem o ReViP (Rebalancing Vision-Proprioception), um novo framework que não remove a propriocepção (o que degradaria o desempenho em tarefas normais), mas reequilibra sua influência com a visão. O sistema consiste em dois componentes principais:

A. Observador de Estágio da Tarefa (Task-Stage Observer - TSO)

Função: Atua como um módulo externo baseado em um Modelo de Linguagem e Visão (VLM) grande (ex: Qwen2.5-VL).
Processo: Analisa a observação visual atual e a instrução de linguagem para realizar raciocínio específico da tarefa. Ele identifica o estado físico visível, a localização dos objetos e resume a intenção do estágio atual.
Saída: Gera "pistas visuais conscientes do progresso" (progress-aware visual cues). Por exemplo, se um objeto cai, o TSO gera um embedding semântico indicando: "O queijo não está sendo segurado pelo braço robótico; localize-o no chão".
Vantagem: Filtra conteúdo irrelevante e fornece evidência visual explícita para a decisão, em vez de depender apenas da memória de estado.

B. Aprimorador de Estágio da Tarefa (Task-Stage Enhancer - TSE)

Mecanismo: Utiliza um mecanismo de modulação linear feature-wise (TS-FiLM).
Funcionamento: As pistas visuais extraídas pelo TSO são convertidas em parâmetros de modulação ( $\gamma_t, \beta_t$ ) que ajustam dinamicamente os tokens de visão e linguagem na rede neural principal (backbone) antes da geração da ação.
Objetivo: Amplificar os canais alinhados com a evidência visual e atenuar a dependência cega do estado proprioceptivo. Isso força o modelo a "replanejar" com base no que vê, e não apenas no que "acha" que está fazendo.

3. Contribuições Principais

Identificação e Análise Sistemática: O trabalho define formalmente a "Conclusão Falsa" e demonstra, através de experimentos controlados (mascaramento de estado), que o viés de estado é a causa principal, mas que remover o estado completamente prejudica o desempenho geral.
BenchMark de Conclusão Falsa (False-Completion Benchmark Suite): Os autores criaram o primeiro conjunto de testes dedicado a avaliar esse fenômeno.
- Baseado no LIBERO.
- Contém 8 tarefas com 3 tipos de perturbações controladas:
  - Queda de Objeto (Object Drop): Testa recuperação de falhas dinâmicas.
  - Troca de Distrator (Distractor Swap): Testa a distinção entre objetos visualmente similares.
  - Reorganização (Relayout): Testa adaptação a mudanças na configuração espacial.
Framework ReViP: Uma arquitetura que integra pistas visuais externas para reequilibrar a fusão de modalidades, melhorando a robustez sem sacrificar a eficiência.
Validação Abrangente: Avaliação em simulação (LIBERO, RoboTwin 2.0) e no mundo real com um braço robótico ROKAE.

4. Resultados Experimentais

Os resultados demonstram que o ReViP supera significativamente os modelos state-of-the-art (como $\pi_0$ , $\pi_0$ -Fast, OpenVLA):

BenchMark de Conclusão Falsa:
- O ReViP alcançou uma taxa de sucesso média de 59%, superando o modelo base $\pi_0$ (36%) em 23 pontos percentuais e o $\pi_0$ -Fast (44%) em 15 pontos.
- A versão com VLM mais forte (ReViP*) atingiu 62%, uma melhoria de 26% sobre o $\pi_0$ .
- Em tarefas de "Queda de Objeto", o ReViP melhorou a detecção de falhas e o replanejamento, evitando a continuação cega da trajetória.
Benchmarks Gerais (LIBERO e RoboTwin 2.0):
- No conjunto LIBERO, o ReViP alcançou 96.7% de taxa de sucesso média (vs. 94.2% do $\pi_0$ ), demonstrando que o reequilíbrio não prejudica tarefas normais.
- No RoboTwin 2.0 (manipulação bimanual), o ReViP dobrou a taxa de sucesso média em relação ao $\pi_0$ (21% vs 10%).
Mundo Real:
- Em experimentos reais com perturbações (queda de objetos, troca de distratores), o ReViP alcançou 88% de sucesso, comparado a 62% do $\pi_0$ . O robô conseguiu recuperar objetos caídos autonomamente, enquanto a base falhava.
Eficiência: O ReViP mantém uma frequência de controle de 16 Hz, com latência aceitável, pois o TSO é executado de forma assíncrona (uma vez por bloco de ação).

5. Significado e Impacto

O trabalho é fundamental para a evolução da robótica baseada em VLA porque:

Muda o Paradigma de Fusão: Demonstra que a simples fusão de visão e propriocepção não é suficiente; é necessário um mecanismo de atenção dinâmica que priorize a visão quando há discrepâncias com o estado interno.
Segurança e Confiabilidade: A "Conclusão Falsa" é um risco de segurança (o robô para sem completar a tarefa). O ReViP oferece uma solução para garantir que o robô só declare sucesso quando visualmente confirmado.
Generalização: A abordagem é "plug-and-play", funcionando em diferentes arquiteturas de backbone ( $\pi_0$ , $\pi_0.5$ ) e escalando para tarefas bimanuais e ambientes complexos do mundo real.

Em resumo, o ReViP resolve uma falha fundamental de "alucinação de estado" em robôs, tornando-os mais robustos a perturbações e mais alinhados com o raciocínio humano de conclusão de tarefas.