Unsupervised Discovery of Failure Taxonomies from Deployment Logs

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een nieuwe robot hebt die je helpt in de keuken of een zelfrijdende auto die je naar het werk brengt. Deze robots zijn slim, maar ze maken ook fouten. Soms laten ze een pan vallen, botsen ze tegen een muur of rijden ze verkeerd door een kruising.

Vroeger was het zo: als een robot een fout maakte, keek een menselijke expert naar de video, dacht na over wat er misging en schreef het op in een notitieboekje. Als je duizenden fouten had, was dit een eindeloze, saaie klus. Het was alsof je duizenden brieven van boze klanten moest lezen om te begrijpen wat er mis is met je product, zonder enige hulp.

Dit artikel introduceert een slimme nieuwe manier om dit op te lossen, zonder dat mensen de hele tijd hoeven te lezen.

Hier is hoe het werkt, vertaald in alledaags taal:

1. De "Detective" die de oorzaak vindt

Stel je voor dat je een detective bent die een misdaad moet oplossen. Je hebt niet alleen de foto van het moment van de crash nodig, maar ook de foto's daarvoor en erna.

De slimme stap: In plaats van elke seconde van de video te bekijken (wat veel te veel informatie is), zoekt de computer eerst naar de belangrijkste momenten. Het negeert de saaie momenten waar niets gebeurt en houdt alleen de momenten vast waar de situatie verandert (bijvoorbeeld: de robot grijpt naar een kopje, het kopje valt, het kopje breekt).
De uitleg: Vervolgens vraagt de computer aan een zeer slimme "taal-expert" (een AI die zowel plaatjes als tekst begrijpt): "Kijk naar deze beelden. Wat is er precies misgegaan en waarom?" De AI schrijft een korte, duidelijke zin op, zoals: "De robot heeft de pan laten vallen omdat hij te snel draaide."

2. De "Architect" die de patronen ziet

Nu hebben we duizenden van die korte zinnen. Als je ze allemaal door elkaar leest, zie je geen patroon.

De slimme stap: De computer gaat nu deze duizenden zinnen sorteren, net als iemand die een grote doos met Lego-blokken in verschillende bakken doet. Maar in plaats van op kleur te sorteren, sorteert de computer op betekenis.
Het resultaat: De computer maakt automatisch een lijst met fout-categorieën (een "taxonomie").
- Bak 1: "Dingen laten vallen" (bijv. potten, kopjes).
- Bak 2: "Verkeerde route kiezen" (bijv. tegen een muur rijden).
- Bak 3: "Niet kunnen zien" (bijv. glasdeuren niet herkennen).

Deze lijst is niet door mensen bedacht; de computer heeft hem zelf ontdekt door naar de patronen in de data te kijken. Het is alsof de computer zelf zegt: "Ah, ik zie dat we vaak problemen hebben met glazen deuren, laten we dat als een apart probleem noteren."

3. Waarom is dit zo handig? (De Twee Superkrachten)

Deze automatisch gegenereerde lijst met fouten geeft de robot twee nieuwe superkrachten:

A. De "Waarschuwingsborden" (Live bewaking)
Stel je voor dat je een auto hebt die een bordje heeft met daarop de lijst met fouten die we net hebben gevonden.

Als de auto nu rijdt en ziet dat hij zich in een situatie bevindt die lijkt op "Niet kunnen zien van glasdeuren", slaat het alarm af voordat hij er tegenaan rijdt.
Het is alsof je een ervaren instructeur in de auto hebt die zegt: "Hé, dit ziet eruit als die situatie waar we gisteren een fout maakten! Pas op!" Dit helpt om ongevallen te voorkomen terwijl de robot nog aan het werk is.

B. De "Slimme Oefenplanning" (Beter leren)
Stel je voor dat je een student wilt laten leren fietsen. Als je hem laat oefenen op een leeg veld, leert hij niets over struikelen. Maar als je weet dat hij vaak struikelt over stoepranden, laat je hem specifiek oefenen op stoepranden.

Met deze nieuwe lijst weet de robot precies waar hij zwak is. In plaats van willekeurig duizenden nieuwe video's te maken om te leren, vraagt hij: "Laat me vooral meer oefenen met 'glazen deuren' en 'smalle doorgangen', want daar maak ik de meeste fouten."
Hierdoor wordt de robot veel sneller en veiliger, met minder moeite.

Samenvatting

Dit onderzoek is als het vinden van een automatische vertaler die duizenden chaotische ongelukken omzet in een heldere, logische handleiding.

Het bekijkt de video's en schrijft de oorzaak van de fout op.
Het groepeert deze oorzaken in logische categorieën (een "fouten-encyclopedie").
Deze encyclopedie helpt de robot om sneller te reageren op gevaar en slimmer te oefenen voor de toekomst.

Het is een manier om robots niet alleen te laten leren van hun fouten, maar om die fouten ook te organiseren, zodat ze er echt iets van leren.

Each language version is independently generated for its own context, not a direct translation.

Titel: Ongecontroleerde Ontdekking van Fout-Taxonomieën uit Deploymentslogs

1. Probleemstelling

Autonome systemen (zoals zelfrijdende auto's en huishoudrobots) worden steeds vaker ingezet in ongestructureerde, dynamische omgevingen. Hierbij komen ze onvermijdelijk terecht in zeldzame situaties ("long-tail edge cases") die leiden tot falen. Hoewel deze falenrijke data waardevol is voor het verbeteren van de robuustheid van systemen, is het handmatig analyseren van grote hoeveelheden deploymentslogs onpraktisch en niet schaalbaar.

Bestaande methoden voor foutanalyse zijn vaak:

Manueel: Vereist dure menselijke annotatie.
Isolatie-gericht: Analyseren individuele incidenten zonder de onderliggende patronen te koppelen.
Vooraf gedefinieerd: Vereisen vooraf bekende labels of parameters, wat de ontdekking van nieuwe fouttypen beperkt.

Het doel van dit werk is het introduceren van een probleem: het ongebaseerd (unsupervised) ontdekken van semantisch coherente en actieerbare fout-taxonomieën direct uit ruwe, multimodale deploymentslogs, zonder vooraf gedefinieerde labels.

2. Methodologie

De auteurs stellen een raamwerk voor dat bestaande uit drie hoofdfasen, zoals geïllustreerd in Figuur 1 van het paper:

Fase 1: Semantische Observatie-Downsampling
Om de causale context te behouden terwijl de data-omvang wordt gereduceerd, wordt een frame-level downsampling uitgevoerd rond het falenmoment.

Er wordt een tijdsvenster genomen voor en na het falen.
In plaats van vaste frame-rates, wordt gebruik gemaakt van CLIP-embeddings om semantische verschillen tussen frames te meten.
Frames worden alleen behouden als ze semantisch significant verschillen van de laatst geselecteerde frame (bidirectionele selectie). Dit behoudt kritieke transities die leiden tot het falen, terwijl redundante observaties worden verwijderd.

Fase 2: Redeneren over het Falen (Failure Reasoning)
De gereduceerde sequenties worden ingevoerd in een Vision-Language Model (VLM).

Het model krijgt een gestructureerde prompt om de scène, het agent-gedrag en de gevolgen te samenvatten.
Via een Chain-of-Thought (CoT) strategie infereren de modellen een gestructureerde verklaring voor de oorzaak van het falen ( $r_n$ ) op basis van de waarnemingen.
Dit resulteert in een set van natuurlijke taal-uitingen van foutoorzaken.

Fase 3: Ontdekking van de Taxonomie via Semantische Aggregatie
De verkregen foutverklaringen worden geclusterd om terugkerende foutmodi te identificeren.

Clustering: In plaats van traditionele clustering op tekst, gebruiken de auteurs een LLM als optimizer. Het model wordt gevraagd om $L$ clusters te vormen die voldoen aan intra-cluster coherentie, minimale inter-cluster overlap en volledige dekking.
Ensemble-and-Refine Strategie: Om robustheid te vergroten en prompt-afhankelijkheid te verminderen, genereert het model meerdere variaties van clustering. Vervolgens wordt een aggregatiestap uitgevoerd waarbij een LLM deze kandidaat-taxonomieën samenvoegt tot één consistente, geïntegreerde taxonomie. Dit lost inconsistenties op en unificeert semantische labels.
Toewijzing: Elke nieuwe trajectoort wordt toegewezen aan de ontdekte foutmodi. Trajecten die niet passen bij bestaande clusters worden gemarkeerd als outliers (potentiële nieuwe fouttypen).

3. Belangrijkste Bijdragen

Probleemdefinitie: Het introduceren van het probleem van ongecontroleerde ontdekking van fout-taxonomieën uit multimodale, op falen gerichte trajecten.
Framework: Een nieuw raamwerk dat gestructureerde foutverklaringen afleidt en deze cluster tot semantische foutmodi, volledig zonder menselijke annotatie.
Validatie en Toepassing: Demonstration dat de ontdekte taxonomieën meetbare voordelen bieden voor downstream veiligheidstaken, specifiek gericht op gerichte datacollectie en runtime foutmonitoring in diverse robotische domeinen.

4. Resultaten en Evaluatie

Het framework werd getest in drie domeinen: robotmanipulatie, autonoom rijden (crashvideo's) en binnenlandse navigatie.

Robotmanipulatie (RoboFail Dataset):
- Verklaring: Het gebruik van Gemini 2.5 Pro leverde de beste semantische overeenkomst met expertannotaties (Cosine Similarity: 0.60, LLM-Judge: 0.76), beter dan gespecialiseerde fine-tuned modellen.
- Taxonomie: De ontdekte clusters (bijv. "Manipulatie- en besturingsfouten", "Perceptie- en bewustzijnsfouten) toonden een sterke een-op-een correlatie met expert-gedefinieerde taxonomieën (Semantic Alignment Score: 0.958), terwijl baselines zoals BERTopic vaak te brede of overlappende clusters produceerden.
- Toewijzing: Het toewijzen van trajecten aan clusters behaalde een F1-score van 85.53%, aanzienlijk hoger dan een puur op embedding gebaseerde baseline (32.41%).
Autonoom Rijden (Nexar Crash Dataset):
- Het systeem ontdekte interpreteerbare clusters zoals "Achtervolgende botsingen" en "Recht van de weg overtredingen", die sterk overeenkwamen met de typologie van het U.S. DoT Volpe Center, zonder voorafgaande labels.
Indoor Navigatie:
- Het systeem identificeerde specifieke perceptuele oorzaken zoals "Dunne uitstekende objecten" en "Uniforme oppervlakken", die overeenkwamen met eerder handmatig geïdentificeerde fouten.

5. Significantie en Downstream Toepassingen

De paper demonstreert twee cruciale toepassingen van de ontdekte taxonomieën voor het sluiten van de veiligheidslus:

Runtime Foutmonitoring:
- Door de ontdekte foutmodi te gebruiken als context voor een VLM-bewaker, kan het systeem eerder en nauwkeuriger veiligheidsrisico's voorspellen.
- Resultaat: De taxonomie-gestuurde monitor behaalde een F1-score van 71.4% (auto) en 77.2% (robot) op in-distribution data, en toonde betere generalisatie op out-of-distribution data dan gesuperviseerde classifiers. Het systeem kon ook eerder waarschuwen (lead time) door bekende foutpatronen te herkennen.
Gerichte Datacollectie en Policy-Refinement:
- De taxonomie helpt ontwikkelaars om te identificeren welke scenario's ondervertegenwoordigd zijn of kritiek zijn.
- Experiment: Door extra data te verzamelen specifiek voor de geïdentificeerde hoog-risico regio's (bijv. "featureless walls"), daalde het faalpercentage van een robot van 46% naar 18%.
- Vergelijking: Uniforme datacollectie (zelfde hoeveelheid data, willekeurig) verlaagde het faalpercentage slechts tot 34%. Dit bewijst dat taxonomie-gestuurde datacollectie veel efficiënter is voor het verbeteren van de veiligheid.

Conclusie

Dit werk biedt een schaalbare, volledig ongecontroleerde aanpak om uit ruwe deploymentslogs interpreteerbare fout-taxonomieën te extraheren. Door het combineren van vision-language redenering met semantische clustering, transformeert het paper ongestructureerde fail-data in actiebare inzichten. Dit stelt ontwikkelaars in staat om systemen proactiever te verbeteren door gerichte training en betere runtime monitoring, wat essentieel is voor de veilige integratie van robots in de echte wereld.

Unsupervised Discovery of Failure Taxonomies from Deployment Logs

1. De "Detective" die de oorzaak vindt

2. De "Architect" die de patronen ziet

3. Waarom is dit zo handig? (De Twee Superkrachten)

Samenvatting

Titel: Ongecontroleerde Ontdekking van Fout-Taxonomieën uit Deploymentslogs

1. Probleemstelling

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten en Evaluatie

5. Significantie en Downstream Toepassingen

Conclusie

Meer zoals dit

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers