Addressing Missing and Noisy Modalities in One Solution: Unified Modality-Quality Framework for Low-quality Multimodal Data

Die Arbeit stellt ein einheitliches Modality-Quality-Framework (UMQ) vor, das fehlende und verrauschte Modalitäten gemeinsam adressiert, um durch einen qualitätsgeschätzten Trainingsansatz, einen qualitätsverbessernden Mechanismus und ein qualitätsbewusstes Mixture-of-Experts-Modell die Robustheit multimodaler affektiver Computingsysteme in realen Szenarien zu steigern.

Sijie Mai, Shiqin Han, Haifeng Hu

Veröffentlicht 2026-03-04
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Ein Team mit kaputten Werkzeugen

Stellen Sie sich vor, Sie haben ein Team von drei Experten, die zusammenarbeiten müssen, um ein Rätsel zu lösen (z. B. zu erraten, ob jemand in einem Video traurig oder fröhlich ist).

  • Experte 1 schaut auf das Gesicht (Visuell).
  • Experte 2 hört auf die Stimme (Akustisch).
  • Experte 3 liest den Text (Sprache).

In der echten Welt läuft das aber selten perfekt. Manchmal ist das Mikrofon kaputt (fehlende Daten), manchmal ist im Hintergrund lauter Baulärm (verrauschte Daten), oder der Experte für die Sprache hat einen schlechten Tag und liest alles falsch.

Bisherige Computerprogramme haben oft nur einen dieser Probleme gelöst: Entweder sie haben gelernt, wie man fehlende Daten erfindet, ODER wie man verrauschte Daten filtert. Aber was passiert, wenn beides gleichzeitig passiert? Dann geben die alten Programme oft auf oder machen dumme Fehler.

Die Lösung: UMQ – Der "Qualitäts-Manager"

Die Forscher von der South China Normal University und der Sun Yat-sen Universität haben eine neue Methode namens UMQ (Unified Modality-Quality Framework) entwickelt. Man kann sich das wie einen sehr klugen Chef vorstellen, der ein Team von Handwerkern leitet, auch wenn deren Werkzeuge defekt sind.

Hier ist, wie dieser Chef arbeitet, in drei einfachen Schritten:

1. Der Qualitäts-Prüfer (Der "Richter")

Bevor das Team anfängt zu arbeiten, schaut sich der Chef jeden Experten genau an.

  • Das Problem: Früher wussten Computer nicht genau, wie "gut" oder "schlecht" eine Information ist. Sie bekamen oft nur vage Anweisungen.
  • Die Lösung: Der Chef nutzt eine clevere Methode namens "Ranking". Statt zu sagen: "Du bist genau 7,5 Punkte gut", sagt er: "Du bist besser als der Typ da drüben, aber schlechter als der da."
  • Der Vergleich: Stellen Sie sich einen Sporttrainer vor. Er weiß vielleicht nicht genau, wie viele Sekunden ein Läufer laufen muss, um Gold zu gewinnen, aber er weiß genau, wer schneller ist als wer. So lernt der Computer, die Qualität der Daten relativ zueinander einzuschätzen, ohne sich in falschen Zahlen zu verirren.

2. Der Qualitäts-Verbesserer (Der "Reparatur-Service")

Wenn ein Experte schlechte Daten liefert (z. B. ein verrauschtes Audio-Signal), versucht der Chef nicht, das Signal einfach zu löschen. Er versucht, es zu reparieren.

  • Wie? Er nutzt zwei Dinge:
    1. Die anderen Experten: Wenn der Audio-Experte schlecht hört, fragt er den Video-Experten: "Hey, ich sehe, dass er lacht. Also muss die Stimme auch fröhlich klingen, oder?" Er nutzt also den Kontext der anderen Sinne.
    2. Das "Grundwissen": Der Chef hat eine Art "Bibliothek" mit dem typischen Verhalten jedes Experten. Er weiß, wie eine normale menschliche Stimme klingt. Wenn das Audio verrauscht ist, gleicht er es an dieses Grundmuster an, aber behält trotzdem die einzigartigen Details des aktuellen Satzes bei.
  • Der Vergleich: Es ist wie ein Restaurator, der ein altes, schmutziges Gemälde reinigt. Er nutzt Wissen über den ursprünglichen Stil des Malers (das Grundwissen) und die Farben der umliegenden Bilder (die anderen Experten), um die fehlenden oder verschmierten Stellen so zu füllen, dass es wieder wie das Original aussieht, ohne einfach nur eine neue Farbe aufzutragen.

3. Der Spezialisten-Rotationsdienst (Der "Schalter")

Das ist der coolste Teil. Da es unzählige Kombinationen geben kann (z. B. "Audio schlecht, Video gut, Text perfekt" ODER "Alle drei schlecht"), kann ein einziger Algorithmus nicht für alles das Gleiche tun.

  • Die Lösung: UMQ nutzt ein System namens MoE (Mixture of Experts). Stellen Sie sich ein riesiges Büro mit vielen verschiedenen Spezialisten vor.
  • Der Mechanismus: Ein intelligenter Schalter (Router) schaut sich das Problem an.
    • Kommt ein Fall, bei dem nur das Audio fehlt? -> Der Schalter schickt den Fall an Spezialist A.
    • Kommt ein Fall, bei dem alles verrauscht ist? -> Der Schalter schickt den Fall an Spezialist B.
  • Die Regel: Der Schalter ist so programmiert, dass er Fälle mit demselben Problem immer an denselben Spezialisten schickt. Das sorgt dafür, dass jeder Spezialist in seiner Nische extrem gut wird.

Warum ist das so wichtig?

Früher mussten Forscher für jedes Problem (fehlende Daten, verrauschte Daten) ein neues Programm bauen. UMQ ist wie ein Schweizer Taschenmesser: Es ist ein einziges System, das mit jedem Typ von schlechter Datenqualität umgehen kann.

Die Ergebnisse:
In Tests (mit echten Videos, in denen Menschen über Gefühle sprechen) hat UMQ alle bisherigen Rekorde gebrochen. Es funktioniert nicht nur, wenn alles perfekt ist, sondern besonders gut, wenn die Daten chaotisch sind – genau wie im echten Leben.

Zusammenfassung in einem Satz

UMQ ist ein intelligenter Computer-Assistent, der lernt, wie "gut" seine Informationen sind, sie mit Hilfe von Kontext und Grundwissen repariert und dann den perfekten Spezialisten für das jeweilige Problem auswählt, damit er auch bei chaotischen Daten immer die richtige Antwort findet.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →