Multimodal Knowledge Distillation for Egocentric Action Recognition Robust to Missing Modalities

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein Roboter, der in einer Küche hilft. Deine Aufgabe ist es zu erkennen, was die Menschen um dich herum tun: Schneiden sie Gemüse? Gießen sie Wasser? Oder werfen sie etwas weg?

Um das gut zu machen, brauchst du deine Sinne. Ein normaler Roboter schaut nur mit einer Kamera (das ist das Bild). Aber das reicht oft nicht. Vielleicht ist die Kamera verdeckt, oder das Licht ist schlecht. Ein smarter Roboter würde aber auch hören (das Audio) und vielleicht sogar spüren, wie sich Dinge bewegen (das ist wie optischer Fluss oder Bewegungserkennung).

Das Problem ist: In der echten Welt funktionieren Sensoren nicht immer perfekt. Die Kamera könnte ausfallen, das Mikrofon könnte stummgeschaltet sein (wegen Datenschutz) oder einfach kaputtgehen. Die meisten bisherigen Roboter-Programme sind wie ein Orchester, das nur dann spielt, wenn alle Instrumente anwesend sind. Fehlt nur das Schlagzeug (das Mikrofon), verstummt das ganze Orchester oder spielt schrecklich falsch.

Hier kommt KARMMA ins Spiel – die Lösung aus dem Papier.

Die Idee: Ein genialer Lehrer und ein schneller Schüler

Stell dir KARMMA wie ein Schulsystem vor, das speziell für Roboter entwickelt wurde.

1. Der große Lehrer (Der Multimodale Lehrer)
Zuerst bauen wir einen riesigen, sehr intelligenten Roboter-Gelehrten. Dieser Lehrer hat Zugriff auf alle Sinne gleichzeitig: Sehen, Hören, Fühlen. Er ist extrem schlau, aber auch sehr langsam und braucht viel Energie (wie ein riesiger Supercomputer). Er lernt, wie man Aktionen erkennt, indem er alle Informationen kombiniert.

2. Der kleine Schüler (Der Multimodale Schüler)
Jetzt wollen wir einen kleinen, schnellen Roboter bauen, der auf einem echten Gerät (wie einem Roboterarm) läuft. Dieser kleine Roboter kann nicht so viel Rechenleistung verbrauchen wie der Lehrer. Also lassen wir den kleinen Roboter vom großen Lehrer lernen. Das nennt man Wissensdistillation (wie wenn ein Meisterkoch einem Lehrling seine Geheimnisse zeigt).

Das Besondere an KARMMA:
Normalerweise lernen Schüler nur, wenn der Lehrer alle Zutaten hat. KARMMA ist aber anders:

Der Lehrer übt mit "Fehlzufall": Während des Trainings schaltet der Lehrer manchmal absichtlich Sensoren aus. "Okay, heute hast du kein Bild, nur Ton. Was machst du jetzt?"
Der Schüler lernt Flexibilität: Der kleine Roboter lernt nicht nur, wie man mit allen Sinnen arbeitet, sondern auch, wie man mit irgendeiner Kombination zurechtkommt. Fehlt das Bild? Kein Problem, er nutzt den Ton. Fehlt der Ton? Er nutzt das Bild. Fehlen beide? Er nutzt, was noch da ist.

Die kreativen Analogien

1. Das Orchester ohne Instrumente
Stell dir vor, du leitest ein Orchester.

Die alten Methoden: Wenn die Geige ausfällt, steht das ganze Orchester still. Sie wissen nicht, wie sie ohne Geige spielen sollen.
KARMMA: Der Dirigent (der Lehrer) sagt den Musikern: "Wenn die Geige ausfällt, spielt die Trompete die Melodie vor!" Der Schüler-Roboter lernt, dass er sich anpassen muss. Er ist wie ein Schweizer Taschenmesser: Egal welches Werkzeug (Sensor) fehlt, er findet eine Lösung mit dem, was noch da ist.

2. Der "Platzhalter"-Trick
Wenn ein Sensor ausfällt, ist es, als würde eine Lücke in einem Puzzle entstehen.

KARMMA nutzt eine clevere Trickkiste: Es fügt leere Platzhalter ein. Stell dir vor, du hast ein Foto, aber ein Stück ist schwarz. Anstatt das Foto wegzuwerfen, sagt KARMMA: "Okay, hier ist ein schwarzer Fleck, aber ich habe eine Erinnerung daran, wie ein schwarzer Fleck in diesem Kontext aussieht." Diese Platzhalter helfen dem Roboter, den Kontext zu verstehen, auch wenn wichtige Daten fehlen.

3. Das Zusammenfassen von Informationen (Token-Reduktion)
Der Lehrer sieht sehr viele Details (Tausende von Bildpunkten pro Sekunde). Das ist zu viel für den kleinen Schüler.

KARMMA nutzt eine Methode wie das Zusammenfassen von Notizen: Statt jeden einzelnen Buchstaben eines Textes zu lesen, fasst der Schüler ganze Sätze in einem Satz zusammen. Er behält die wichtigste Bedeutung bei, aber spart sich die Zeit, jedes Detail einzeln zu verarbeiten. Das macht den Roboter viel schneller und spart Batterie.

Warum ist das wichtig?

Robustheit: Wenn du einen Roboter in einer Fabrik oder einem Haushalt einsetzt, passieren Dinge. Kabel werden abgerissen, Mikrofone werden stummgeschaltet. KARMMA sorgt dafür, dass der Roboter nicht abstürzt oder dumm aussieht, wenn ein Sensor ausfällt.
Geschwindigkeit: Der kleine Schüler ist so schnell, dass er auf einem echten Roboter in Echtzeit arbeiten kann, ohne dass man einen riesigen Server braucht.
Kein Neulernen: Du musst den Roboter nicht neu programmieren, wenn du ihm eine neue Kamera gibst oder ein neues Mikrofon. Er ist von Anfang an darauf trainiert, flexibel zu sein.

Zusammengefasst:
KARMMA ist wie ein flexibler Allrounder, der von einem Super-Genie gelernt hat, wie man mit unvollständigen Informationen umgeht. Es ermöglicht Robotern, sicher und schnell zu arbeiten, selbst wenn ihre Sinne nicht zu 100 % funktionieren – genau wie ein erfahrener Mensch, der auch im Dunkeln oder bei Lärm noch weiß, was um ihn herum passiert.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die egozentrische Aktionserkennung (Erkennung von Handlungen aus der Ich-Perspektive) ist entscheidend für die Mensch-Roboter-Interaktion (HRI) und die Überwachung von Aufgaben. Während bestehende Methoden oft auf reinen RGB-Videos basieren, können zusätzliche Modalitäten wie Audio die Genauigkeit unter schwierigen Bedingungen verbessern.

Das Hauptproblem liegt jedoch in der Robustheit gegenüber fehlenden Modalitäten:

Die meisten multimodalen Ansätze gehen davon aus, dass bei der Inferenz alle Modalitäten verfügbar sind.
In der Praxis (z. B. in der Robotik) treten häufig Sensorausfälle, Stille bei Mikrofonen, Datenschutzbeschränkungen oder Okklusionen auf.
Fehlt die informativste Modalität, bricht die Genauigkeit multimodaler Modelle oft drastisch ein.
Bestehende Lösungen erfordern oft eine Modus-Ausrichtung (Alignment) der Daten oder führen bei fehlenden Eingaben zu einem vollständigen Versagen. Zudem sind viele multimodale Modelle zu rechenintensiv für den Einsatz auf Edge-Geräten oder Robotern.

2. Methodik: KARMMA

Die Autoren stellen KARMMA (Knowledge distillation framework for egocentric Action Recognition robust to Missing ModAlities) vor. Es handelt sich um ein Multimodal-zu-Multimodal-Distillations-Framework, das folgende Kernkomponenten umfasst:

A. Architektur (Lehrer und Schüler)

Lehrer-Modell (Teacher): Ein großes multimodales Modell, das aus gefrorenen, vortrainierten unimodalen Feature-Extraktoren (z. B. Swin-B für Video, AST für Audio) besteht. Diese werden nicht neu trainiert, was die Integration neuer Encoder erleichtert. Ein Transformer-basierter Fusionsblock (FB) kombiniert die Features.
Schüler-Modell (Student): Ein leichtgewichtiges multimodales Modell mit kleineren Feature-Extraktoren und einem kompakteren Fusionsblock. Es wird so trainiert, dass es mit jeder Teilmenge der Modalitäten umgehen kann, ohne neu trainiert werden zu müssen.

B. Schlüsseltechniken

Modality Dropout: Während des Trainings werden zufällig ganze Modalitäten entfernt (mit einer Wahrscheinlichkeit $p$ ), wobei sichergestellt wird, dass mindestens eine Modalität aktiv bleibt. Dies wird sowohl beim Lehrer als auch beim Schüler angewendet, um Robustheit zu trainieren, ohne dass die Trainingsdaten perfekt ausgerichtete Modalitäten für alle Samples benötigen.
Strategie für fehlende Modalitäten (Missing Modality Strategy):
- Der Schüler nutzt zwei Arten lernbarer Token:
  - Modality-spezifische Token ( $\breve{t}_m$ ): Unterscheiden die Modalitäten (ähnlich wie Positional Encodings).
  - Token-spezifische Token ( $\bar{t}^m_i$ ): Kompensieren fehlende Modalitäten, indem sie Informationen bereitstellen, wenn eine Modalität nicht vorhanden ist.
- Dies ermöglicht es dem Netzwerk, auch bei unvollständigen Eingaben informative Repräsentationen zu erzeugen.
Token-Reduktion (Θ-Average): Um den quadratischen Anstieg der Rechenkosten in Self-Attention-Modellen zu begrenzen, wird eine parametrisfreie Strategie eingeführt. Token werden pro Modalität gruppiert und gemittelt, um eine feste Obergrenze ( $\Theta$ ) an Token pro Modalität einzuhalten. Dies reduziert Speicher und Rechenlast ohne Genauigkeitsverlust.
Wissensdistillation: Der Lehrer gibt sein Wissen an den Schüler weiter, indem die Wahrscheinlichkeitsverteilungen der Klassen via Kullback-Leibler-Divergenz (KL-Divergenz) angeglichen werden. Der Schüler wird mit einer kombinierten Verlustfunktion aus Kreuzentropie (für die Ground-Truth) und Distillationsverlust trainiert.

3. Hauptbeiträge

Neues Framework: Ein Multimodal-zu-Multimodal-Distillationsansatz, der keine Modus-Ausrichtung über die Samples hinweg erfordert und robust gegenüber fehlenden Eingaben ist.
Leichtgewichtiger Schüler: Ein effizientes Modell, das auf beliebigen Teilmengen der Modalitäten inferieren kann, was den Einsatz auf Robotern mit variierenden Sensor-Konfigurationen ermöglicht.
Effiziente Integration: Durch das Einfrieren der vortrainierten Feature-Extraktoren im Lehrer entfällt das erneute Training dieser Komponenten, was die Wartung und Aktualisierung vereinfacht.
Ressourceneffizienz: Die Token-Reduktion senkt die Rechenkosten signifikant, ohne die Genauigkeit zu beeinträchtigen.

4. Ergebnisse

Die Methode wurde auf den Datensätzen Epic-Kitchens-100 und Something-Something V2 evaluiert.

Genauigkeit unter fehlenden Modalitäten: KARMMA (Schüler) übertrifft sowohl Baseline-Modelle als auch Modelle, die nur Modality Dropout nutzen, deutlich.
- Auf Something-Something erreicht der Schüler bei Nutzung nur der Objektdetektions-Annotationen (D) eine Genauigkeitssteigerung von ca. 3000 % (relativ) im Vergleich zur Baseline ohne Distillation.
- Auf Epic-Kitchens zeigt sich eine signifikante Verbesserung bei reinen Audio-Eingaben.
Robustheit: Bei simulierten Laufzeit-Sensorausfällen (Dropout-Raten bis 90 %) bleibt die Genauigkeit von KARMMA stabil, während Baseline-Modelle drastische Einbrüche erleiden.
Vergleich mit State-of-the-Art (SOTA):
- Im Vergleich zu Radevski et al. [6] (Multimodal-zu-Unimodal) bietet KARMMA die Flexibilität, mit verschiedenen Modalitätskombinationen zu inferieren, ohne separate Modelle trainieren zu müssen.
- Der KARMMA-Schüler ist ca. 50 % ressourcenschonender (Speicher und GFLOPs) als der Lehrer, bei nur geringen Genauigkeitsverlusten im Vergleich zum Lehrer.
- Bei voller Verfügbarkeit aller Modalitäten übertrifft KARMMA den SOTA-Schüler von Radevski et al. um ca. 1,2 %.

5. Bedeutung und Fazit

KARMMA adressiert eine kritische Lücke in der Robotik und eingebetteten Systemen: Die Notwendigkeit von zuverlässiger Wahrnehmung trotz unvorhersehbarer Sensorverfügbarkeit.

Praktische Relevanz: Das Modell eliminiert die Notwendigkeit, für jede mögliche Sensor-Konfiguration separate Modelle zu trainieren. Ein einziges Modell deckt alle Kombinationen ab.
Effizienz: Durch die Kombination von Wissensdistillation und Token-Reduktion entsteht ein Modell, das schnell genug für den Echtzeit-Einsatz auf Robotern (On-Robot Deployment) ist.
Zukunft: Die Arbeit legt den Grundstein für robustere Mensch-Roboter-Interaktionen, bei denen die Wahrnehmung auch bei Teilausfällen der Sensoren (z. B. verdeckte Kamera, stummes Mikrofon) aufrechterhalten wird.

Zusammenfassend bietet KARMMA einen effizienten, robusten und flexiblen Ansatz für die multimodale Aktionserkennung, der die Zuverlässigkeit von Robotersystemen in realen, unvorhersehbaren Umgebungen erheblich steigert.

Multimodal Knowledge Distillation for Egocentric Action Recognition Robust to Missing Modalities

Die Idee: Ein genialer Lehrer und ein schneller Schüler

Die kreativen Analogien

Warum ist das wichtig?

1. Problemstellung

2. Methodik: KARMMA

A. Architektur (Lehrer und Schüler)

B. Schlüsseltechniken

3. Hauptbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Unified Multimodal Models as Auto-Encoders

CL4SE: A Context Learning Benchmark For Software Engineering Tasks

CRAFT: Cost-aware Expert Replica Allocation with Fine-Grained Layerwise Estimations

Spark-LLM-Eval: A Distributed Framework for Statistically Rigorous Large Language Model Evaluation

ZEUS: An Efficient GPU Optimization Method Integrating PSO, BFGS, and Automatic Differentiation