Unsupervised Discovery of Failure Taxonomies from Deployment Logs

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um robô doméstico ou um carro autônomo. Eles são inteligentes, mas, como qualquer pessoa que está aprendendo a dirigir ou a cozinhar, eles cometem erros. Às vezes, eles derramam uma xícara de café, batem em uma porta de vidro ou se perdem em um corredor.

O problema é que, quando esses robôs falham, eles geram milhares de horas de vídeos e dados. Analisar tudo isso manualmente, um por um, seria como tentar encontrar uma agulha em um palheiro... e o palheiro é do tamanho de um estádio de futebol. É impossível para humanos fazerem isso.

Este artigo apresenta uma solução genial: um sistema que usa Inteligência Artificial para "ler" os erros dos robôs e criar um "manual de instruções" automático sobre o que deu errado.

Aqui está como funciona, usando analogias simples:

1. O Detetive que Resume a História (Raciocínio Semântico)

Imagine que você tem um vídeo de 10 minutos de um robô tentando pegar uma maçã e acabando por derrubar um vaso.

O jeito antigo: O computador olha para cada quadro do vídeo e diz "aqui tem uma maçã", "aqui tem um vaso". É muito detalhado e confuso.
O jeito novo (deste paper): A IA age como um detetive muito esperto. Ela pula as partes chatas do vídeo e foca apenas nos momentos importantes (o "antes" e o "depois" do erro). Em seguida, ela escreve um resumo em linguagem humana, como: "O robô tentou pegar a maçã, mas sua garra escorregou porque a superfície estava molhada."

2. O Organizador de Caos (Descoberta de Taxonomia)

Agora imagine que você tem 1.000 desses resumos de erros. Alguns dizem "escorregou na água", outros "escorregou no óleo", outros "a garra estava muito fraca".

O jeito antigo: Você teria uma lista bagunçada de 1.000 frases diferentes.
O jeito novo: A IA age como um bibliotecário mágico. Ela pega todas essas 1.000 histórias e as agrupa em "gavetas" lógicas.
- Gaveta 1: "Erros de Escorregão" (inclui água, óleo, chão liso).
- Gaveta 2: "Erros de Planejamento" (o robô escolheu o caminho errado).
- Gaveta 3: "Erros de Visão" (o robô achou que era uma parede, mas era vidro).

Essa organização é chamada de Taxonomia de Falhas. É como criar um índice de um livro de erros, onde você sabe exatamente qual tipo de problema está acontecendo, sem precisar ter lido todos os livros antes.

3. Por que isso é útil? (Os Superpoderes)

O artigo mostra duas formas principais de usar esse "índice de erros":

Aviso Precoce (Monitoramento em Tempo Real):
Imagine que o robô está dirigindo e se aproxima de uma situação que se parece com o "Erro de Escorregão" que ele aprendeu na gaveta 1. Em vez de esperar bater, o sistema avisa: "Ei! Isso parece com aquele erro de chão molhado que vimos antes. Vamos frear!" É como ter um passageiro experiente que diz: "Cuidado, essa curva é perigosa porque já vimos alguém derrapar aqui antes."
Treinamento Inteligente (Coleta de Dados Direcionada):
Se a IA descobre que 50% dos erros acontecem em "portas de vidro", ela diz para os engenheiros: "Pare de filmar em todos os lugares. Vamos focar em filmar robôs passando por portas de vidro!"
Isso é como um professor que percebe que seus alunos erram sempre na tabela de multiplicar do 7. Em vez de revisar tudo, ele foca o estudo apenas na tabela do 7. Isso economiza tempo e dinheiro e torna o robô muito mais seguro.

Resumo da Ópera

Este trabalho cria uma ferramenta que transforma caos de dados brutos (milhares de vídeos de acidentes) em conhecimento organizado (um manual de erros).

Em vez de humanos gastando anos lendo logs de erro, a IA faz o trabalho sujo de:

Ler o vídeo.
Explicar o que deu errado em português.
Agrupar os erros parecidos.
Avisar quando um erro novo está prestes a acontecer ou dizer onde precisamos treinar o robô.

É como transformar uma pilha de cartas de reclamações bagunçadas em um plano de ação claro para melhorar o serviço.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

À medida que sistemas robóticos (veículos autônomos, assistentes domésticos, etc.) são integrados em ambientes reais e dinâmicos, eles inevitavelmente enfrentam cenários não estruturados que levam a falhas. Embora esses dados de falha contenham informações valiosas para melhorar a robustez do sistema, a análise manual de grandes volumes de logs de falha é impraticável, lenta e não escala.

O trabalho define o problema de descoberta não supervisionada de taxonomias de falhas a partir de grandes volumes de logs brutos de implantação. O objetivo não é apenas agrupar sequências visualmente semelhantes, mas recuperar modos de falha semanticamente coerentes e acionáveis que expliquem por que as falhas ocorrem, sem a necessidade de rótulos pré-definidos ou anotação humana.

2. Metodologia

A abordagem proposta opera em três estágios principais, transformando trajetórias multimodais brutas em uma taxonomia estruturada:

A. Subamostragem Semântica de Observações

Para codificar compactamente cada trajetória de falha preservando o contexto causal, o método utiliza uma estratégia de subamostragem baseada em similaridade de embeddings (usando CLIP):

Define-se uma janela temporal ao redor do evento de falha (antes e depois).
Seleciona-se frames bidirecionalmente a partir do evento de falha, mantendo apenas os frames que apresentam uma mudança semântica significativa (diferença no embedding acima de um limiar $\tau$ ) em relação ao frame selecionado anteriormente.
Isso remove redundância temporal, preservando apenas as transições críticas que levam à falha e suas consequências imediatas, otimizando o contexto de entrada para o Modelo de Linguagem Visual (VLM).

B. Raciocínio de Falha (Failure Reasoning)

Cada sequência subamostrada é alimentada em um VLM (Vision-Language Model) com um prompt estruturado.

Utiliza-se uma estratégia de Chain-of-Thought (Cadeia de Pensamento) para forçar o modelo a resumir a cena, o comportamento do agente e inferir uma causa plausível de falha baseada na evidência observada.
O resultado é um conjunto de explicações de falha estruturadas em linguagem natural ( $R = \{r_n\}$ ).

C. Descoberta de Taxonomia via Agregação Semântica

O núcleo da descoberta de taxonomia envolve agrupar essas explicações em modos de falha recorrentes:

Clustering com LLMs: Em vez de algoritmos de clustering tradicionais, o método utiliza Grandes Modelos de Linguagem (LLMs) como otimizadores para agrupar as explicações em clusters semanticamente coerentes.
Estratégia Ensemble-and-Refine: Para garantir robustez e evitar sensibilidade à formulação do prompt, o sistema gera múltiplas taxonomias candidatas independentemente e, em seguida, usa um LLM para reconciliá-las em uma única taxonomia consolidada. Isso resolve inconsistências, funde categorias sobrepostas e unifica rótulos.
Atribuição: Cada trajetória original é mapeada para o cluster de falha mais apropriado na taxonomia descoberta. Trajetórias que não se alinham são marcadas como outliers.

3. Principais Contribuições

Definição do Problema: Introdução formal do problema de descobrir taxonomias de falhas a partir de trajetórias multimodais de falha de forma não supervisionada.
Framework Proposto: Um pipeline que extrai explicações estruturadas de falhas e as agrega em modos de falha semânticos, eliminando a necessidade de anotação humana cara.
Benefícios de Segurança em Loop Fechado: Demonstração de que as taxonomias descobertas melhoram tarefas downstream críticas, especificamente:
- Coleta de Dados Direcionada: Identificação de cenários sub-representados para refinamento de políticas.
- Monitoramento de Falhas em Tempo Real: Melhoria na detecção precoce de violações de segurança durante a execução.

4. Resultados e Avaliação

O framework foi avaliado em três domínios distintos: manipulação robótica, navegação indoor e direção autônoma (usando vídeos de acidentes reais).

Domínio de Manipulação (RoboFail):
- Raciocínio: O modelo Gemini 2.5 Pro alcançou o melhor alinhamento semântico com anotações de especialistas (Score de Alinhamento Semântico - SAS de 0.958 após agregação), superando modelos especializados fine-tuned e baselines como BERTopic.
- Taxonomia: A taxonomia descoberta recuperou com precisão modos de falha definidos por especialistas (ex: "Falhas de Planejamento", "Falhas de Percepção"), demonstrando alta precisão e cobertura.
Domínio de Direção (Nexar Crash Dataset):
- O sistema descobriu clusters interpretáveis como "Colisões Traseiras", "Violações de Prioridade em Interseções" e "Intrusões Perigosas de Faixa", alinhando-se com tipologias oficiais de segurança de trânsito (U.S. DoT) sem usar rótulos prévios.
Domínio de Navegação Indoor:
- Identificou causas de falha geométricas e perceptivas específicas, como "Objos Proeminentes Finos" e "Superfícies Uniformes", correspondendo a falhas conhecidas na literatura.

Impacto em Tarefas Downstream:

Monitoramento em Tempo Real: O monitor de falhas guiado pela taxonomia superou classificadores supervisionados e detectores de anomalia genéricos, especialmente em dados out-of-distribution (OOD), alcançando melhores pontuações F1 e tempos de detecção mais rápidos.
Refinamento de Política: Ao usar a taxonomia para coletar dados direcionados em regiões de alto risco (ex: paredes sem textura), a taxa de falha do robô caiu de 46% para 18%, comparado a apenas 34% quando se usava coleta de dados uniforme.

5. Significado e Conclusão

Este trabalho representa um avanço significativo na segurança de sistemas autônomos ao automatizar a análise de falhas em escala. Ao transformar logs brutos em taxonomias interpretáveis sem supervisão humana, o método permite:

Escalabilidade: Processamento de grandes volumes de dados de implantação que seriam impossíveis de analisar manualmente.
Interpretabilidade: Fornecimento de explicações em linguagem natural que engenheiros e pesquisadores podem entender e agir.
Melhoria Contínua: Criação de um ciclo de feedback onde as falhas descobertas guiam diretamente a coleta de dados e o aprimoramento de políticas de segurança.

O estudo conclui que a descoberta não supervisionada de taxonomias de falhas é uma ferramenta poderosa para fechar o ciclo de melhoria de sistemas robóticos, tornando-os mais robustos e seguros em ambientes do mundo real. Limitações futuras incluem a validação causal das explicações geradas e a escalabilidade para logs temporais ainda maiores.

Unsupervised Discovery of Failure Taxonomies from Deployment Logs

1. O Detetive que Resume a História (Raciocínio Semântico)

2. O Organizador de Caos (Descoberta de Taxonomia)

3. Por que isso é útil? (Os Superpoderes)

Resumo da Ópera

1. O Problema

2. Metodologia

A. Subamostragem Semântica de Observações

B. Raciocínio de Falha (Failure Reasoning)

C. Descoberta de Taxonomia via Agregação Semântica

3. Principais Contribuições

4. Resultados e Avaliação

5. Significado e Conclusão

Mais como este

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers