When Vision Overrides Language: Evaluating and Mitigating Counterfactual Failures in VLAs

Este artigo apresenta o LIBERO-CF, um benchmark para avaliar falhas contrafactuais em modelos Visão-Linguagem-Ação (VLAs), e propõe a Counterfactual Action Guidance (CAG), uma estratégia de inferência que melhora significativamente a obediência a instruções linguísticas e o sucesso em tarefas ao reduzir a dependência de atalhos visuais sem exigir treinamento adicional.

Yu Fang, Yuchun Feng, Dong Jing, Jiaqi Liu, Yue Yang, Zhenyu Wei, Daniel Szafir, Mingyu Ding

Publicado 2026-02-20
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um robô muito inteligente, capaz de ver o mundo e entender o que você diz. Você diz: "Pegue o pote de mostarda". Mas, em vez de pegar a mostarda, o robô ignora sua voz e pega a fita adesiva que está logo ao lado, porque é isso que ele viu fazer milhares de vezes antes.

Esse é o problema central que os pesquisadores da Universidade da Carolina do Norte descobriram nos modelos de Visão-Linguagem-Ação (VLAs). Eles chamam isso de "Falha Contrafactual".

Aqui está uma explicação simples do que o artigo propõe, usando analogias do dia a dia:

1. O Problema: O Robô "Preguiçoso" e os Atalhos Mentais

Imagine que você ensinou um cozinheiro a fazer um bolo de chocolate. Você mostrou o processo 100 vezes. Agora, você pede: "Faça um bolo de cenoura".

  • O que deveria acontecer: O cozinheiro lê a receita, pega a cenoura e faz o bolo de cenoura.
  • O que acontece de verdade (o problema do VLA): O cozinheiro olha para a mesa, vê a batedeira e o chocolate (que ele conhece muito bem), e diz: "Ah, você quer o bolo de chocolate de novo!" Ele ignora a palavra "cenoura" e faz o bolo de chocolate porque é o "atalho" que seu cérebro já aprendeu.

No mundo dos robôs, isso acontece porque os robôs são treinados com muitos dados visuais, mas poucos dados de linguagem variada. Eles aprendem a confiar mais no que veem (a fita adesiva na mesa) do que no que ouvem (sua ordem de pegar a mostarda). Eles criam "atalhos visuais": se a fita está lá, eles pegam a fita, não importa o que você diga.

2. O Teste: O "Espelho da Verdade" (LIBERO-CF)

Para provar que isso estava acontecendo, os pesquisadores criaram um novo teste chamado LIBERO-CF.
Pense nisso como um teste de "atenção plena" para robôs. Eles colocaram o robô em uma cena onde ele já sabia fazer uma tarefa (pegar a fita), mas deram a ele uma ordem contrária (pegue a mostarda).

  • Resultado: A maioria dos robôs falhou miseravelmente. Eles continuaram pegando a fita, mesmo quando a mostarda estava ali. Isso mostrou que a "voz" do robô estava muito fraca comparada aos seus "olhos".

3. A Solução: O "Duplo Cérebro" (CAG)

Como consertar um robô que ignora você? Os pesquisadores criaram uma técnica chamada Guia de Ação Contrafactual (CAG).

Imagine que o robô tem dois "modos" de pensar operando ao mesmo tempo:

  1. Modo A (O Robô Normal): Olha para a mesa e ouve você. Ele pensa: "O usuário pediu mostarda, mas a fita parece mais familiar..."
  2. Modo B (O Robô Cego): Olha apenas para a mesa, ignorando completamente o que você disse. Ele pensa: "Sem ouvir ninguém, o que eu faria aqui? Ah, vou pegar a fita porque é o que sempre faço."

A mágica do CAG é comparar esses dois pensamentos.

  • Se o Modo A diz "Pegue a mostarda" e o Modo B diz "Pegue a fita", o sistema percebe que a diferença entre as duas respostas é causada apenas pela sua voz.
  • O sistema então usa essa diferença para "empurrar" o robô na direção da sua voz, enfraquecendo o impulso de pegar a fita.

É como se você tivesse um amigo que sempre te diz o que fazer, e outro amigo que ignora você e faz o que ele acha melhor. O CAG é o processo de ouvir o primeiro amigo e dizer: "Esqueça o que o segundo amigo faria, faça o que o primeiro disse!"

4. Os Resultados: Robôs que Realmente Ouvem

Os testes mostraram que essa técnica funciona muito bem, tanto em simulações de computador quanto no mundo real (com um braço robótico real pegando objetos).

  • Sem CAG: O robô pegava a fita 90% das vezes quando você pedia a mostarda.
  • Com CAG: O robô começou a pegar a mostarda corretamente na maioria das vezes, sem precisar ser reprogramado do zero.

Resumo em uma frase

Os robôs atuais são como alunos que estudaram tanto para uma prova específica que, quando você muda a pergunta, eles continuam respondendo a resposta antiga. Os pesquisadores criaram um "truque de inferência" que força o robô a ouvir a nova pergunta, comparando o que ele faria se estivesse "surdo" com o que ele faz quando "ouve" você, garantindo que ele siga suas instruções reais e não apenas seus velhos hábitos.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →