Unsupervised Discovery of Failure Taxonomies from Deployment Logs

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen riesigen Berg von Videobändern, die alle möglichen Missgeschicke eines Roboters oder eines autonomen Autos zeigen. Der Roboter lässt einen Topf fallen, das Auto prallt gegen einen Laternenpfahl oder der Staubsaugerroboter bleibt in einer Ecke stecken.

Bisher mussten Menschen stundenlang diese Videos durchschauen, um zu verstehen: „Aha, der Roboter ist immer dann gestürzt, wenn er Glaswände sieht." Das ist wie der Versuch, einen Ozean mit einem Löffel auszutrinken – unmöglich und viel zu langsam.

Dieses Papier stellt eine neue, clevere Methode vor, die diesen Prozess vollautomatisch erledigt. Hier ist die Erklärung in einfachen Worten:

1. Das Problem: Der „Schrotthaufen" an Fehlern

Autonome Systeme sammeln täglich riesige Mengen an Daten, wenn sie scheitern. Aber diese Daten sind oft chaotisch. Es sind nur Rohdaten: Videos, Sensordaten und Logs. Ohne Analyse sind das nur tausende Einzelbilder ohne Zusammenhang.

2. Die Lösung: Der „intelligente Bibliothekar"

Die Forscher haben ein System entwickelt, das wie ein super-intelligenter Bibliothekar funktioniert, der nie schläft. Dieser Bibliothekar macht drei Dinge:

Schritt 1: Der Fokus (Das „Highlighting")
Statt jedes einzelne Video-Foto anzuschauen, sucht das System nach den wichtigsten Momenten. Es ignoriert die langweiligen Teile, in denen nichts passiert, und konzentriert sich nur auf den Moment vor dem Unfall und den Moment nach dem Unfall.
- Analogie: Stellen Sie sich vor, Sie schauen sich einen ganzen Spielfilm an, um zu verstehen, warum der Held fällt. Unser System schneidet den Film so zu, dass nur die Szene übrig bleibt, in der er stolpert, und die paar Sekunden davor, wo er den Stein nicht sah.
Schritt 2: Die Erklärung (Der „Detektiv")
Das System nutzt eine moderne Künstliche Intelligenz (ein „Sehen-und-Sprechen-Modell"), um sich die wichtigen Szenen anzusehen und eine menschliche Erklärung zu schreiben.
- Statt nur zu sagen: „Fehler 404", schreibt es: „Der Roboter hat die Glaswand für eine offene Tür gehalten und ist dagegen gefahren."
- Metapher: Es ist, als würde man einem sehr klugen Detektiv das Tatortfoto zeigen und ihn bitten: „Erzähl mir, was hier schiefgelaufen ist."
Schritt 3: Die Sortierung (Das „Regal")
Jetzt hat das System tausende dieser Erklärungen. Anstatt sie alle durcheinander zu werfen, gruppiert es sie automatisch in Kategorien.
- Alle Fälle, bei denen Glaswände das Problem waren, landen in einem Regal namens „Glas-Verwechslungen".
- Alle Fälle, bei denen der Roboter zu schnell war, landen in „Zu viel Tempo".
- Das Ergebnis ist eine Fehler-Taxonomie: Eine sortierte Liste aller möglichen Fehlerarten, die der Roboter machen kann, komplett ohne dass ein Mensch sie vorher benannt hat.

3. Warum ist das so genial? (Die Vorteile)

Das System ist nicht nur gut im Sortieren, es hilft auch, die Roboter sicherer zu machen:

Gezieltes Lernen (Der „Schwächling-Training")
Wenn das System merkt: „Hey, 40% aller Fehler passieren bei Glaswänden!", dann weiß der Entwickler genau, was zu tun ist. Er muss nicht zufällig mehr Daten sammeln, sondern gezielt Videos von Glaswänden machen, um den Roboter dort zu trainieren.
- Vergleich: Statt einem Schüler, der in Mathe schlecht ist, 1000 verschiedene Fächer beibringen zu wollen, konzentriert man sich nur auf die Matheaufgaben, die er nicht versteht. Das spart Zeit und Geld.
Frühwarnsystem (Der „Radar")
Wenn der Roboter später unterwegs ist, kann das System als Wache dienen. Es erkennt: „Oh, die Situation sieht genau aus wie die 'Glas-Verwechslung'-Kategorie!" und warnt den Roboter, bevor er wirklich gegen die Wand fährt.
- Metapher: Es ist wie ein erfahrener Beifahrer, der sagt: „Vorsicht, hier ist es glatt, wie letzte Woche!" bevor man ins Schleudern gerät.

Zusammenfassung

Statt dass Menschen mühsam tausende Fehlerfälle manuell analysieren, lernt die KI aus den Fehlern selbst. Sie schreibt die Fehlerberichte, sortiert sie in sinnvolle Kategorien und hilft den Robotern, daraus zu lernen. Das macht autonome Systeme nicht nur sicherer, sondern auch schneller in ihrer Entwicklung, weil sie genau dort trainiert werden, wo es wirklich wehtut.

Es ist im Grunde wie ein automatisches Fehler-Management-System, das aus Chaos eine klare Anleitung zur Verbesserung macht.

Each language version is independently generated for its own context, not a direct translation.

Titel: Unüberwachtes Entdecken von Fehlertaxonomien aus Bereitstellungs-Logs

1. Problemstellung

Autonome Systeme (z. B. autonome Fahrzeuge, Haushaltsroboter) werden zunehmend in unstrukturierten, realen Umgebungen eingesetzt. Dabei treten zwangsläufig diverse und unvorhergesehene Fehler auf, die Sicherheits- und Zuverlässigkeitsrisiken bergen.

Herausforderung: Die manuelle Analyse großer Mengen an Fehlerdaten (Bereitstellungs-Logs) ist zeitaufwendig, nicht skalierbar und erfordert menschliche Experten.
Ziel: Die Autoren führen das Problem des unüberwachten Entdeckens von Fehlertaxonomien aus multimodalen, fehlerzentrierten Trajektorien ein. Das Ziel ist es, semantisch kohärente und handlungsrelevante Fehlermodi direkt aus rohen Bereitstellungsdaten zu extrahieren, ohne vordefinierte Labels oder menschliche Annotationen.

2. Methodik

Der vorgeschlagene Rahmen (Framework) besteht aus drei Hauptphasen, die auf Vision-Language-Modellen (VLMs) und Large Language Models (LLMs) basieren:

Phase 1: Semantische Beobachtungs-Downsampling (Semantic Observation Downsampling)

Um die kausalen Kontexte effizient zu kodieren, werden die Rohdaten (Video- und Sensordaten) komprimiert.
Anstatt eine feste Frame-Rate zu verwenden, wird ein similarity-based downsampling durchgeführt. Basierend auf CLIP-Embeddings werden Frames ausgewählt, die semantische Änderungen (Change-Points) im Zeitverlauf um den Fehlerzeitpunkt herum markieren.
Dies behält kritische Übergänge vor und nach dem Fehler bei, entfernt aber redundante Informationen, um den Kontextfenster von VLMs optimal zu nutzen.

Phase 2: Fehler-Reasoning (Failure Reasoning)

Die komprimierten Sequenzen werden zusammen mit strukturierten Prompts an ein VLM übergeben.
Unter Verwendung einer Chain-of-Thought (CoT)-Strategie leitet das Modell strukturierte Fehlererklärungen ( $r_n$ ) ab. Es fasst die Szene, das Agentenverhalten und die wahrscheinliche Fehlerursache zusammen.
Dies transformiert rohe Perzeptionsdaten in natürliche Sprache, die die Ursache des Fehlers erklärt (z. B. „Dropping a pot while carrying it" statt nur „Frame 45: Objekt verloren").

Phase 3: Entdeckung der Fehlertaxonomie durch semantische Aggregation

Die gesammelten Fehlererklärungen werden in einem semantischen Raum gruppiert, um wiederkehrende Muster zu identifizieren.
Clustering-Strategie: Anstatt traditionelle Text-Clustering-Methoden zu nutzen, wird ein LLM als Optimierer eingesetzt.
Ensemble-and-Refine: Um Robustheit zu gewährleisten, generiert das LLM mehrere unabhängige Cluster-Lösungen (durch diverse Umformulierungen der Prompts). Diese Kandidaten-Taxonomien werden dann durch einen weiteren LLM-Schritt zu einer konsolidierten, widerspruchsfreien Taxonomie zusammengeführt.
Das Ergebnis ist eine Menge von Clustern $C_l$ , jeweils charakterisiert durch einen Namen, eine Beschreibung, Schlüsselwörter und eine Häufigkeit.

Phase 4: Zuordnung (Assignment)

Neue Trajektorien werden den entdeckten Fehlermodi zugeordnet. Trajektorien, die keinem Cluster entsprechen, werden als Ausreißer markiert und können zur Erweiterung der Taxonomie genutzt werden.

3. Wichtige Beiträge

Problemformulierung: Einführung des Problems des unüberwachten Entdeckens von Fehlertaxonomien aus multimodalen Bereitstellungsdaten.
Framework: Entwicklung einer Pipeline, die strukturierte Fehlererklärungen extrahiert und diese in semantische Fehlermodi gruppiert, ohne menschliche Aufsicht.
Nachweis des Nutzens: Demonstration, dass diese Taxonomien messbare Vorteile für die Sicherheit im geschlossenen Regelkreis bieten, insbesondere bei gezielter Datensammlung und Runtime-Monitoring.

4. Ergebnisse und Evaluation

Die Methode wurde in drei Domänen evaluiert: Robotermanipulation (Küchenaufgaben), autonomes Fahren (Dashcam-Unfalldaten) und Indoor-Navigation.

Robotermanipulation (RoboFail-Dataset):
- Reasoning: Das Modell (Gemini 2.5 Pro) erreichte eine hohe semantische Übereinstimmung mit Experten-Annotationen (Cosine Similarity: 0.60, LLM-Judge Score: 0.76).
- Taxonomie-Qualität: Die entdeckten Cluster korrelierten stark mit einer Experten-Taxonomie (Taxonomy Coverage: 1.00, Semantic Alignment Score: 0.958). Im Vergleich zu Baselines wie BERTopic erzielte die Methode deutlich schärfere, nicht-überlappende Kategorien.
- Zuordnung: Die Zuordnung von Fehlern zu den Taxonomien erreichte einen gewichteten F1-Score von 85,53 %, weit über der reinen Embedding-Ähnlichkeit (32,41 %).
Autonomes Fahren (Nexar-Dataset):
- Die Methode entdeckte interpretierbare Cluster wie „Rear-End Collisions" oder „Unsafe Cut In", die stark mit offiziellen Typologien des US-Verkehrsministeriums übereinstimmen, obwohl keine Labels verwendet wurden.
Indoor-Navigation:
- Es wurden spezifische Fehlermodi wie „Thin Protruding Objects" oder „Narrow Gap Misjudgments" identifiziert, die bekannte manuell gefundene Fehlerkategorien widerspiegeln.

5. Signifikanz und Downstream-Anwendungen

Die entdeckten Taxonomien ermöglichen zwei wesentliche Sicherheitsverbesserungen:

Runtime Failure Monitoring (Laufzeit-Überwachung):
- Ein Monitor, der mit den entdeckten Fehlermodi angereichert wird, kann Sicherheitsverletzungen früher und genauer erkennen als reine Anomalie-Detektoren oder überwachtes Lernen.
- In Tests zeigte der taxonomieführte Monitor eine höhere F1-Leistung (71,4 % bei Autos, 77,2 % bei Robotern) und eine bessere Generalisierung auf Out-of-Distribution-Daten.
- Beispiel: Ein Roboter erkennt eine Glasscheibe als durchgehbar; der Monitor erkennt die strukturelle Ähnlichkeit zu einem bekannten Fehlermodus und löst einen Sicherheitscontroller aus, um eine Kollision zu verhindern.
Gezielte Datensammlung (Targeted Data Collection):
- Die Taxonomie identifiziert Lücken im Training (z. B. „featureless walls").
- Durch das Sammeln zusätzlicher Daten nur in diesen kritischen Bereichen sank die Fehlerrate bei Robotern von 46 % auf 18 %. Ein uniformes Sammeln zusätzlicher Daten reduzierte die Rate nur auf 34 %. Dies zeigt eine effizientere Nutzung von Ressourcen zur Verbesserung der Robustheit.

Fazit

Das Paper präsentiert einen skalierbaren, unüberwachten Ansatz, um aus rohen Bereitstellungsdaten handlungsrelevante Fehlertaxonomien zu gewinnen. Durch die Kombination von multimodaler Wahrnehmung, logischem Reasoning und semantischem Clustering ermöglicht es Systemen, aus Fehlern zu lernen, ohne auf teure menschliche Annotationen angewiesen zu sein. Dies bildet eine Grundlage für geschlossene Sicherheitskreisläufe in der Robotik und autonomen Systemen.

Unsupervised Discovery of Failure Taxonomies from Deployment Logs

1. Das Problem: Der „Schrotthaufen" an Fehlern

2. Die Lösung: Der „intelligente Bibliothekar"

3. Warum ist das so genial? (Die Vorteile)

Zusammenfassung

Titel: Unüberwachtes Entdecken von Fehlertaxonomien aus Bereitstellungs-Logs

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse und Evaluation

5. Signifikanz und Downstream-Anwendungen

Fazit

Mehr davon

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers