Multimodal Knowledge Distillation for Egocentric Action Recognition Robust to Missing Modalities

Die Arbeit stellt KARMMA vor, ein multimodales Wissensdistillations-Framework für die egozentrische Aktionserkennung, das robust gegenüber fehlenden Eingabemodalitäten ist und eine effiziente, wiederverwendbare On-Robot-Implementierung ermöglicht.

Maria Santos-Villafranca, Dustin Carrión-Ojeda, Alejandro Perez-Yus, Jesus Bermudez-Cameo, Jose J. Guerrero, Simone Schaub-Meyer

Veröffentlicht 2026-03-02
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein Roboter, der in einer Küche hilft. Deine Aufgabe ist es zu erkennen, was die Menschen um dich herum tun: Schneiden sie Gemüse? Gießen sie Wasser? Oder werfen sie etwas weg?

Um das gut zu machen, brauchst du deine Sinne. Ein normaler Roboter schaut nur mit einer Kamera (das ist das Bild). Aber das reicht oft nicht. Vielleicht ist die Kamera verdeckt, oder das Licht ist schlecht. Ein smarter Roboter würde aber auch hören (das Audio) und vielleicht sogar spüren, wie sich Dinge bewegen (das ist wie optischer Fluss oder Bewegungserkennung).

Das Problem ist: In der echten Welt funktionieren Sensoren nicht immer perfekt. Die Kamera könnte ausfallen, das Mikrofon könnte stummgeschaltet sein (wegen Datenschutz) oder einfach kaputtgehen. Die meisten bisherigen Roboter-Programme sind wie ein Orchester, das nur dann spielt, wenn alle Instrumente anwesend sind. Fehlt nur das Schlagzeug (das Mikrofon), verstummt das ganze Orchester oder spielt schrecklich falsch.

Hier kommt KARMMA ins Spiel – die Lösung aus dem Papier.

Die Idee: Ein genialer Lehrer und ein schneller Schüler

Stell dir KARMMA wie ein Schulsystem vor, das speziell für Roboter entwickelt wurde.

1. Der große Lehrer (Der Multimodale Lehrer)
Zuerst bauen wir einen riesigen, sehr intelligenten Roboter-Gelehrten. Dieser Lehrer hat Zugriff auf alle Sinne gleichzeitig: Sehen, Hören, Fühlen. Er ist extrem schlau, aber auch sehr langsam und braucht viel Energie (wie ein riesiger Supercomputer). Er lernt, wie man Aktionen erkennt, indem er alle Informationen kombiniert.

2. Der kleine Schüler (Der Multimodale Schüler)
Jetzt wollen wir einen kleinen, schnellen Roboter bauen, der auf einem echten Gerät (wie einem Roboterarm) läuft. Dieser kleine Roboter kann nicht so viel Rechenleistung verbrauchen wie der Lehrer. Also lassen wir den kleinen Roboter vom großen Lehrer lernen. Das nennt man Wissensdistillation (wie wenn ein Meisterkoch einem Lehrling seine Geheimnisse zeigt).

Das Besondere an KARMMA:
Normalerweise lernen Schüler nur, wenn der Lehrer alle Zutaten hat. KARMMA ist aber anders:

  • Der Lehrer übt mit "Fehlzufall": Während des Trainings schaltet der Lehrer manchmal absichtlich Sensoren aus. "Okay, heute hast du kein Bild, nur Ton. Was machst du jetzt?"
  • Der Schüler lernt Flexibilität: Der kleine Roboter lernt nicht nur, wie man mit allen Sinnen arbeitet, sondern auch, wie man mit irgendeiner Kombination zurechtkommt. Fehlt das Bild? Kein Problem, er nutzt den Ton. Fehlt der Ton? Er nutzt das Bild. Fehlen beide? Er nutzt, was noch da ist.

Die kreativen Analogien

1. Das Orchester ohne Instrumente
Stell dir vor, du leitest ein Orchester.

  • Die alten Methoden: Wenn die Geige ausfällt, steht das ganze Orchester still. Sie wissen nicht, wie sie ohne Geige spielen sollen.
  • KARMMA: Der Dirigent (der Lehrer) sagt den Musikern: "Wenn die Geige ausfällt, spielt die Trompete die Melodie vor!" Der Schüler-Roboter lernt, dass er sich anpassen muss. Er ist wie ein Schweizer Taschenmesser: Egal welches Werkzeug (Sensor) fehlt, er findet eine Lösung mit dem, was noch da ist.

2. Der "Platzhalter"-Trick
Wenn ein Sensor ausfällt, ist es, als würde eine Lücke in einem Puzzle entstehen.

  • KARMMA nutzt eine clevere Trickkiste: Es fügt leere Platzhalter ein. Stell dir vor, du hast ein Foto, aber ein Stück ist schwarz. Anstatt das Foto wegzuwerfen, sagt KARMMA: "Okay, hier ist ein schwarzer Fleck, aber ich habe eine Erinnerung daran, wie ein schwarzer Fleck in diesem Kontext aussieht." Diese Platzhalter helfen dem Roboter, den Kontext zu verstehen, auch wenn wichtige Daten fehlen.

3. Das Zusammenfassen von Informationen (Token-Reduktion)
Der Lehrer sieht sehr viele Details (Tausende von Bildpunkten pro Sekunde). Das ist zu viel für den kleinen Schüler.

  • KARMMA nutzt eine Methode wie das Zusammenfassen von Notizen: Statt jeden einzelnen Buchstaben eines Textes zu lesen, fasst der Schüler ganze Sätze in einem Satz zusammen. Er behält die wichtigste Bedeutung bei, aber spart sich die Zeit, jedes Detail einzeln zu verarbeiten. Das macht den Roboter viel schneller und spart Batterie.

Warum ist das wichtig?

  • Robustheit: Wenn du einen Roboter in einer Fabrik oder einem Haushalt einsetzt, passieren Dinge. Kabel werden abgerissen, Mikrofone werden stummgeschaltet. KARMMA sorgt dafür, dass der Roboter nicht abstürzt oder dumm aussieht, wenn ein Sensor ausfällt.
  • Geschwindigkeit: Der kleine Schüler ist so schnell, dass er auf einem echten Roboter in Echtzeit arbeiten kann, ohne dass man einen riesigen Server braucht.
  • Kein Neulernen: Du musst den Roboter nicht neu programmieren, wenn du ihm eine neue Kamera gibst oder ein neues Mikrofon. Er ist von Anfang an darauf trainiert, flexibel zu sein.

Zusammengefasst:
KARMMA ist wie ein flexibler Allrounder, der von einem Super-Genie gelernt hat, wie man mit unvollständigen Informationen umgeht. Es ermöglicht Robotern, sicher und schnell zu arbeiten, selbst wenn ihre Sinne nicht zu 100 % funktionieren – genau wie ein erfahrener Mensch, der auch im Dunkeln oder bei Lärm noch weiß, was um ihn herum passiert.