Red-Teaming Vision-Language-Action Models via Quality Diversity Prompt Generation for Robust Robot Policies

Each language version is independently generated for its own context, not a direct translation.

Imagine que você acabou de comprar um robô doméstico super inteligente, capaz de ver o mundo, entender o que você diz e pegar objetos. Ele é como um gênio que acabou de sair da escola: sabe muita coisa, mas é um pouco "rígido" com as palavras.

Se você disser: "Pegue a lata de Coca", ele pega. Mas, se você disser, de um jeito mais chique: "Exerça uma força meticulosa sobre o recipiente de alumínio", o robô pode ficar confuso, olhar para a lata e... não fazer nada. Ele falha porque não reconheceu que "recipiente de alumínio" é a mesma coisa que "Coca".

Os autores deste artigo, chamados Q-DIG, queriam resolver esse problema. Eles criaram um método para "treinar" esses robôs a serem mais robustos, ou seja, para entenderem que a mesma coisa pode ser chamada de muitas formas diferentes.

Aqui está como eles fizeram isso, usando analogias do dia a dia:

1. O Problema: O Robô "Literal"

Pense no robô como um ator de teatro que decorou o roteiro palavra por palavra. Se o diretor mudar uma palavra no roteiro, o ator trava. Os robôs atuais (chamados de Modelos Visão-Linguagem-Ação) têm esse problema. Eles são ótimos, mas frágeis se você mudar a forma de pedir as coisas.

2. A Solução: O "Treinamento de Estresse" (Red-Teaming)

Para consertar isso, os pesquisadores decidiram fazer um "treinamento de estresse". Em vez de apenas dar ordens normais, eles queriam criar ordens estranhas, mas ainda fazíveis, para ver onde o robô quebraria.

Imagine que você é um treinador de um time de futebol. Para preparar o time para qualquer jogo, você não joga apenas contra times que usam a mesma tática. Você cria cenários de treino onde o time enfrenta:

Jogadores que falam gírias.
Jogadores que usam termos técnicos de medicina.
Jogadores que dão ordens muito longas e chatas.
Jogadores que falam como se estivessem num filme de ação.

O objetivo não é humilhar o time, mas sim mostrar a eles: "Ei, o jogo pode ser assim também! Preparem-se!"

3. A Magia do Q-DIG: O "Jardineiro de Ideias"

Aqui entra a parte criativa do método chamado Q-DIG. Eles usaram uma técnica chamada "Diversidade de Qualidade".

Imagine que você tem um jardim (o robô) e quer plantar sementes de diferentes estilos (as ordens).

Outros métodos tentavam apenas achar a semente mais "má" possível para matar a planta, mas muitas vezes essas sementes eram de plantas que não existiam no mundo real (ordens que nenhum humano daria).
O Q-DIG funciona como um jardineiro esperto. Ele tem uma lista de "estilos de ataque" (como: usar gírias, ser muito formal, usar advérbios estranhos). Ele usa um "jardineiro digital" (uma Inteligência Artificial) para criar novas ordens baseadas nos estilos que já funcionaram antes.

O segredo é que o Q-DIG não quer apenas qualquer ordem que faça o robô falhar. Ele quer ordens que:

Façam o robô falhar (para mostrar a fraqueza).
Sejam diversas (cobrir todos os estilos da lista).
Sejam naturais (parecerem algo que um humano real diria).

É como se o Q-DIG dissesse: "Vamos tentar fazer o robô falhar usando gírias... ok, falhou. Agora vamos tentar usando termos técnicos... ok, falhou. Vamos garantir que tenhamos exemplos de todos esses estilos."

4. O Resultado: O Robô "Imunizado"

Depois de criar esse "arquivo de ordens difíceis" (o jardim de sementes), eles pegaram essas ordens e as usaram para re-treinar o robô.

É como se, após o treinamento de estresse, o robô lesse o livro de instruções novamente, mas agora com todas as variações de linguagem que ele aprendeu a lidar.

Antes: "Pegue a Coca" -> Robô: "Entendido!" / "Exerça força no alumínio" -> Robô: "O que?" (Falha).
Depois do Q-DIG: O robô já viu "Exerça força no alumínio" no treino. Ele sabe que é a mesma coisa. Ele pega a Coca, não importa como você peça.

5. A Prova Real

Os pesquisadores testaram isso em simulações de computador e também em um robô real de verdade.

Simulação: O robô treinado com o Q-DIG conseguiu lidar com ordens que ele nunca tinha visto antes, muito melhor do que robôs treinados com métodos antigos.
Mundo Real: Eles colocaram o robô real para empurrar uma lata de refrigerante. Mesmo com ordens estranhas geradas pelo computador, o robô treinado com Q-DIG teve muito mais sucesso do que o robô comum.

Resumo em uma frase

O Q-DIG é como um "treinador de defesa" que cria milhares de cenários de perguntas difíceis, mas realistas, para ensinar o robô a não se confundir com a linguagem humana, tornando-o mais inteligente e confiável no mundo real.

Each language version is independently generated for its own context, not a direct translation.

1. Problema: Fragilidade de Modelos VLA a Instruções

Os modelos Visão-Linguagem-Ação (VLA) têm demonstrado grande potencial para criar sistemas robóticos de propósito geral, permitindo a execução de tarefas complexas a partir de instruções de linguagem natural. No entanto, esses modelos apresentam uma vulnerabilidade crítica: sua performance é altamente sensível à formulação exata das instruções.

Fragilidade Semântica: Pequenas alterações na redação de uma instrução (ex: mudar de "empurre a lata de refrigerante" para "exerça meticulosamente força sobre o recipiente de alumínio") podem causar falhas catastróficas, mesmo que o significado semântico seja idêntico.
Limitações das Abordagens Atuais: Métodos anteriores de "red-teaming" (testes de invasão) para VLAs, como o Embodied Red Teaming (ERT), conseguem gerar instruções adversariais, mas frequentemente falham em:
1. Controlar a diversidade dos modos de falha (estilos de ataque).
2. Garantir que as instruções geradas sejam realistas e dentro da distribuição de comandos humanos (evitando instruções absurdas).
3. Utilizar essas falhas para melhorar diretamente a política do robô.

2. Metodologia: O Framework Q-DIG

Os autores propõem o Q-DIG (Quality Diversity for Diverse Instruction Generation), um framework que integra técnicas de Otimização de Diversidade de Qualidade (QD) com Modelos de Visão e Linguagem (VLMs) para gerar prompts adversariais robustos e realistas.

A. Formulação do Problema como QD

O objetivo é encontrar um conjunto diversificado de instruções que maximizem a variância de falha do VLA, mantendo-se dentro de estilos de ataque predefinidos.

Espaço de Solução: O conjunto de todas as instruções de linguagem possíveis ( $C$ ).
Qualidade ( $J(c)$ ): Definida como a variância da taxa de falha do VLA para uma tarefa específica sob uma instrução $c$ . O uso da variância (em vez da taxa bruta de falha) incentiva instruções que estão na fronteira das capacidades linguísticas do modelo (nem sempre fáceis, nem sempre impossíveis), evitando instruções irrealistas que falham 100% das vezes.
Diversidade: Definida pela cobertura de um conjunto de estilos de ataque ( $Z$ ), como "uso de advérbios", "tom centrado no humano", "vocabulário incomum", etc.

B. O Pipeline Q-DIG

O processo funciona em um loop iterativo (ver Figura 2 do artigo):

Seleção de Instrução: O sistema amostra instruções previamente descobertas (arquivo) para servir como "pedras de tropeço" (stepping stones).
Mutação (Geração): Um VLM atua como mutador. Dada uma instrução existente, seu estilo de ataque e o contexto visual da tarefa, o VLM gera novas instruções candidatas seguindo um estilo de ataque alvo (ex: tornar a instrução mais coloquial).
Seleção de Candidatos: Várias gerações são feitas e filtradas por similaridade semântica (usando Sentence-BERT) para garantir diversidade interna no lote.
Avaliação:
- O VLA base executa a tarefa no simulador com a nova instrução para calcular a variância de falha.
- Um LLM Juiz classifica a instrução em qual estilo de ataque ela pertence.
Atualização do Arquivo: As instruções são armazenadas em um arquivo (archive) baseado em seus estilos. Uma instrução substitui uma existente se:
- A célula do estilo estiver vazia (aumentando a diversidade).
- A nova instrução tiver maior variância de falha que a existente (aumentando a qualidade).

C. Ajuste Fino (Fine-Tuning)

Após gerar um conjunto diversificado de instruções adversariais, o framework cria um conjunto de dados aumentado. Ele associa demonstrações de especialistas (que já existem) às novas instruções adversariais geradas. O VLA é então re-treinado (fine-tuned) supervisionadamente com esse conjunto aumentado, aprendendo a generalizar para diferentes formulações linguísticas.

3. Contribuições Principais

Framework Q-DIG: Uma nova abordagem para red-teaming de VLAs que utiliza otimização de diversidade de qualidade para gerar instruções adversariais diversificadas e dentro da distribuição real.
Avaliação Abrangente: Validação em dois domínios de simulação (SimplerEnv e LIBERO) e em um robô real, comparando com baselines como Rephrase e ERT.
Estudo com Usuários: Demonstração de que as instruções geradas pelo Q-DIG são percebidas como mais naturais e humanas do que as de métodos anteriores.
Melhoria de Robustez: Evidência de que o ajuste fino com dados aumentados por Q-DIG melhora significativamente as taxas de sucesso em instruções não vistas.
Validação Sim-to-Real: Confirmação de que os benefícios do treinamento adversarial simulado transferem-se para robôs físicos.

4. Resultados Experimentais

A. Geração de Prompts

Diversidade: O Q-DIG superou os baselines (Rephrase e ERT) em métricas de diversidade (BERT, BLEU) e na cobertura de diferentes estilos de ataque (arquivo preenchido em ~97% das categorias no LIBERO, contra ~36% do Rephrase).
Humanização: Em um estudo com 40 participantes, as instruções do Q-DIG foram classificadas consistentemente como as mais "humanas" (ranking médio de 1.67 vs 2.24 do ERT), validando a hipótese de que a busca por estilos específicos gera prompts mais realistas.
Variância de Falha: O Q-DIG encontrou instruções que causam falhas significativas, mas que ainda estão dentro das capacidades do modelo (alta variância), indicando que são testes de estresse relevantes e não apenas ruído.

B. Ajuste Fino e Robustez

Desempenho em Simulação: Ao treinar VLAs (OpenVLA, $\pi0.5$ , GR00T) com o conjunto de dados aumentado pelo Q-DIG, houve um aumento de 5% a 25% nas taxas de sucesso em instruções adversariais não vistas, comparado ao treinamento apenas com instruções originais.
Comparação: O Q-DIG superou o Rephrase e o ERT na robustez final, sugerindo que a diversidade controlada e a ancoragem visual são cruciais. O Rephrase, embora diversificado semanticamente, falhou em cobrir modos de falha visualmente relevantes.

C. Experiências no Mundo Real

O framework foi testado em um braço robótico real (Kinova JACO) com tarefas como "empurrar uma lata de refrigerante".
As instruções adversariais geradas na simulação comportaram-se de maneira consistente no mundo real (ex: prompts que falhavam na simulação também falhavam no robô real).
O modelo ajustado com dados do Q-DIG demonstrou maior robustez a instruções não vistas no mundo real, validando a transferência sim-to-real.

5. Significado e Conclusão

O trabalho Q-DIG representa um avanço significativo na segurança e robustez de robôs controlados por IA. Ao demonstrar que é possível gerar sistematicamente instruções adversariais realistas e diversificadas, e usar essas falhas para melhorar o treinamento do modelo, os autores oferecem um caminho para mitigar a fragilidade dos VLAs.

Implicações:

Segurança: Permite identificar e corrigir vulnerabilidades antes da implantação em ambientes críticos.
Generalização: Melhora a capacidade dos robôs de entender comandos humanos variados e não padronizados.
Escalabilidade: A abordagem baseada em QD oferece um método escalável para explorar o espaço de falhas de modelos multimodais complexos.

Limitações: O método depende de execuções (rollouts) no simulador para avaliar a variância de falha, o que é computacionalmente caro, limitando o número de iterações. Futuros trabalhos podem explorar modelos substitutos (surrogate models) para acelerar o processo.

Em suma, o Q-DIG estabelece um novo padrão para a criação de políticas robóticas mais resilientes, unindo a descoberta de falhas (red-teaming) com o aprimoramento contínuo do modelo (fine-tuning).