Unsupervised Discovery of Failure Taxonomies from Deployment Logs

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un esercito di robot, auto a guida autonoma e assistenti domestici che lavorano ogni giorno nel mondo reale. Come noi umani, anche loro fanno errori: sbattono contro i muri, lasciano cadere le tazze di caffè o si perdono in un incrocio.

Fino a poco tempo fa, per capire perché succedevano questi errori, gli ingegneri dovevano fare un lavoro da detective molto lento: guardavano uno per uno migliaia di video degli incidenti, prendevano appunti e cercavano di trovare dei pattern. Era come cercare di capire il clima di un intero continente guardando una sola goccia di pioggia alla volta. Impossibile e troppo lento.

Questo articolo presenta una soluzione intelligente, un po' come un "detective automatico che legge e ragiona". Ecco come funziona, spiegato in modo semplice:

1. Il Problema: Troppi Errori, Troppo Caos

I robot generano montagne di dati quando falliscono. Se provi a guardare tutto questo materiale a mano, ti perdi. Inoltre, spesso gli errori sembrano tutti diversi (un robot cade perché ha scivolato, un altro perché ha urtato un vetro), ma in realtà nascondono la stessa causa profonda (ad esempio: "non ha visto l'ostacolo").

2. La Soluzione: Il "Detective AI"

Gli autori hanno creato un sistema che fa tre cose magiche, senza bisogno che un umano gli dica cosa cercare:

Passo 1: Guardare e Capire (L'Analista)
Invece di guardare solo i pixel del video, il sistema usa un'intelligenza artificiale avanzata (un modello che "vede" e "parla") per guardare l'incidente e scrivere una spiegazione in linguaggio naturale.
- Analogia: Immagina di avere un giornalista sportivo che guarda un errore di un calciatore e scrive subito: "Ha sbagliato il passaggio perché il campo era scivoloso", invece di limitarsi a dire "Il pallone è andato a sinistra".
Passo 2: Raggruppare le Idee (Il Bibliotecario)
Una volta che il sistema ha scritto centinaia di spiegazioni diverse, le prende tutte e le mette in ordine. Cerca le spiegazioni che si assomigliano e le raggruppa in "categorie".
- Analogia: È come se avessi un mucchio di lettere di reclamo da clienti arrabbiati. Invece di leggerle una per una, il sistema le mette in scatole etichettate: "Problemi di consegna", "Cibo freddo", "Cortesia del personale". All'improvviso, vedi che il 50% dei problemi è "Cibo freddo".
Passo 3: La Mappa degli Errori (La Taxonomia)
Alla fine, il sistema ti consegna una "mappa" degli errori più comuni. Non ti dice solo "il robot è caduto", ma ti dice: "Ehi, il 30% delle cadute è dovuto a porte di vetro che il robot non vede".

3. A cosa serve questa mappa? (I Superpoteri)

Una volta che hai questa mappa degli errori, puoi usare due superpoteri per migliorare i robot:

Superpotere 1: L'Allarme Antincendio (Monitoraggio in Tempo Reale)
Ora che il robot sa quali sono i suoi "punti deboli" (le categorie della mappa), può fare più attenzione quando si trova in situazioni simili.
- Esempio: Se la mappa dice che i robot spesso sbattono contro le porte di vetro, il sistema di sicurezza del robot può dire: "Attenzione! Stai entrando in una zona a rischio 'Porte di vetro'. Rallenta e controlla due volte!". È come avere un copilota esperto che ti avvisa prima che tu sbatta.
Superpotere 2: Lo Studio Mirato (Raccolta Dati Intelligente)
Invece di far guidare al caso il robot per ore per trovare nuovi errori, il sistema ti dice esattamente dove andare ad addestrarlo.
- Esempio: Se la mappa dice che il robot fallisce spesso con i muri bianchi e lisci, invece di fargli guidare per tutto il mondo, gli fai fare 100 prove specifiche contro i muri bianchi. Risparmi tempo e soldi, e il robot impara molto più velocemente a non sbagliare più.

In Sintesi

Questo lavoro è come trasformare un caos di "incidenti stradali" in un manuale di istruzioni chiaro e organizzato.
Invece di dire "i nostri robot fanno errori", ora possiamo dire: "I nostri robot hanno difficoltà con le porte di vetro e i corridoi stretti, quindi addestriamoli proprio su quello".

È un passo enorme per rendere i robot più sicuri, più intelligenti e meno costosi da migliorare, perché invece di indovinare, imparano esattamente dai loro errori passati, organizzati in modo logico.

Each language version is independently generated for its own context, not a direct translation.

Titolo

Scoperta Non Supervisionata di Tassonomie di Guasto dai Log di Distribuzione

1. Il Problema

Man mano che i sistemi robotici (veicoli autonomi, assistenti domestici, bracci robotici) vengono integrati in ambienti reali e non strutturati, sono inevitabilmente soggetti a guasti dovuti a interazioni impreviste e casi limite a "coda lunga". Sebbene questi guasti rappresentino sfide per la sicurezza e l'affidabilità, contengono anche dati percettivi ricchi per migliorare la robustezza del sistema.
Tuttavia, l'analisi manuale di grandi volumi di log di guasto è impraticabile, costosa e non scalabile. Inoltre, i metodi esistenti tendono ad analizzare i guasti in isolamento o richiedono annotazioni umane predefinite. Il paper introduce il problema di scoprire automaticamente tassonomie di guasti semanticamente coerenti e azionabili direttamente dai log grezzi di distribuzione, senza l'uso di etichette preesistenti.

2. Metodologia

L'approccio proposto è un framework in tre fasi che trasforma le traiettorie percettive multimodali (video, azioni, contesto) in una tassonomia strutturata di guasti, operando in modo completamente non supervisionato.

Fase 1: Inferenza di Spiegazioni Strutturate (Failure Reasoning)

Downsampling Semantico: Per gestire l'efficienza computazionale e preservare il contesto causale, le traiettorie di guasto vengono sottocampionate. Invece di un campionamento a frame rate fisso, il metodo utilizza la similarità delle embedding (tramite CLIP) per selezionare solo i frame che rappresentano cambiamenti semantici significativi prima e dopo l'evento di guasto.
Ragionamento Vision-Language: Ogni sequenza compressa viene inviata a un Modello Linguistico Visivo (VLM) con un prompt strutturato. Utilizzando una strategia Chain-of-Thought, il modello genera una spiegazione testuale strutturata della causa del guasto ( $r_n$ ), basata sull'evidenza percettiva e sulle azioni eseguite.

Fase 2: Scoperta della Tassonomia (Semantic Aggregation)

Clustering Semantico: Le spiegazioni di guasto generate vengono aggregate per identificare modalità di guasto ricorrenti. Il processo non si basa sulla similarità percettiva grezza, ma sul ragionamento semantico.
Strategia Ensemble e Rifinitura: Per garantire robustezza e coerenza, il sistema utilizza una strategia di ensemble-and-refine. Il LLM genera più clusterizzazioni candidate indipendenti (con prompt diversi) e successivamente le aggrega in una singola tassonomia consolidata. Questo passaggio risolve incongruenze, unifica etichette semantiche e ottimizza implicitamente il numero di cluster ( $L$ ) per massimizzare la coerenza intra-cluster e minimizzare la sovrapposizione inter-cluster.

Fase 3: Assegnazione e Monitoraggio

Ogni nuova traiettoria di guasto viene assegnata alla modalità di guasto più appropriata nella tassonomia scoperta. Le istanze che non corrispondono a nessun cluster esistente vengono segnalate come outlier, utili per il raffinamento futuro del sistema.

3. Contributi Chiave

Definizione del Problema: Introduzione formale del problema della scoperta non supervisionata di tassonomie di guasto da traiettorie multimodali.
Framework Innovativo: Proposta di un metodo che estrae spiegazioni strutturate tramite ragionamento VLM e le aggrega in modalità di guasto semanticamente coerenti, eliminando la necessità di annotazione umana.
Validazione e Utilità: Dimostrazione che le tassonomie scoperte offrono benefici misurabili per la sicurezza a ciclo chiuso, guidando la raccolta dati mirata e migliorando il monitoraggio dei guasti in tempo reale.

4. Risultati Sperimentali

Il framework è stato valutato su tre domini robotici distinti:

Manipolazione Robotica (RoboFail): Confrontato con una tassonomia definita da esperti. Il metodo ha raggiunto un allineamento semantico elevato (SAS = 0.958 con aggregazione) e ha superato i baselines come BERTopic e modelli fine-tuned specifici per il task, dimostrando una migliore generalizzazione.
Guida Autonoma (Nexar Crash Dataset): Su 1.500 video di incidenti stradali, il sistema ha scoperto cluster interpretabili (es. "Collisioni posteriori", "Violazioni del diritto di passaggio") che si allineano con le tipologie di incidenti del Dipartimento dei Trasporti degli USA, senza alcuna etichetta predefinita.
Navigazione Indoor: Su robot in ambienti d'ufficio, il sistema ha identificato cause di collisione specifiche (es. "Oggetti sporgenti sottili", "Superfici prive di caratteristiche"), allineandosi con cause note identificate manualmente in letteratura.

Valutazione Quantitativa:

Assegnazione: Il sistema ha ottenuto un F1-weighted di 85.53% nell'assegnare i guasti ai cluster corretti, superando di gran lunga i baselines basati sulla similarità delle embedding (32.41%).
Monitoraggio in Tempo Reale: L'integrazione della tassonomia nel monitoraggio ha migliorato il rilevamento dei guasti, specialmente su dati fuori distribuzione (OOD), aumentando il F1 score e il tempo di preavviso (lead time) rispetto ai classificatori supervisionati e ai rilevatori di anomalie generici.
Raccolta Dati Mirata: Utilizzando la tassonomia per guidare la raccolta di nuovi dati in regioni ad alto rischio (es. muri privi di texture), il tasso di guasto del policy è sceso dal 46% al 18%, rispetto al 34% ottenuto con raccolta dati uniforme.

5. Significato e Impatto

Questo lavoro rappresenta un passo fondamentale verso sistemi robotici più sicuri e adattivi:

Scalabilità: Risolve il collo di bottiglia dell'analisi manuale dei log, rendendo possibile l'elaborazione di grandi volumi di dati di distribuzione reale.
Interpretabilità: Trasforma dati grezzi in categorie di guasto comprensibili e azionabili (in linguaggio naturale), facilitando la comunicazione tra ingegneri e sistemi.
Sicurezza a Ciclo Chiuso: Dimostra come le tassonomie scoperte possano essere integrate direttamente nei cicli di controllo per:
1. Monitoraggio Proattivo: Rilevare violazioni di sicurezza imminenti correlando il comportamento corrente a pattern di guasto noti.
2. Ottimizzazione dei Dati: Indirizzare efficientemente la raccolta di dati e il ri-addestramento (fine-tuning) solo sulle modalità di guasto critiche o sottorappresentate, massimizzando il ritorno sull'investimento in termini di sicurezza.

In sintesi, il paper propone un paradigma in cui i guasti non sono visti come errori isolati da correggere manualmente, ma come dati strutturati da cui il sistema può imparare autonomamente a migliorare la propria robustezza e sicurezza operativa.