Addressing Missing and Noisy Modalities in One Solution: Unified Modality-Quality Framework for Low-quality Multimodal Data

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Ein Team mit kaputten Werkzeugen

Stellen Sie sich vor, Sie haben ein Team von drei Experten, die zusammenarbeiten müssen, um ein Rätsel zu lösen (z. B. zu erraten, ob jemand in einem Video traurig oder fröhlich ist).

Experte 1 schaut auf das Gesicht (Visuell).
Experte 2 hört auf die Stimme (Akustisch).
Experte 3 liest den Text (Sprache).

In der echten Welt läuft das aber selten perfekt. Manchmal ist das Mikrofon kaputt (fehlende Daten), manchmal ist im Hintergrund lauter Baulärm (verrauschte Daten), oder der Experte für die Sprache hat einen schlechten Tag und liest alles falsch.

Bisherige Computerprogramme haben oft nur einen dieser Probleme gelöst: Entweder sie haben gelernt, wie man fehlende Daten erfindet, ODER wie man verrauschte Daten filtert. Aber was passiert, wenn beides gleichzeitig passiert? Dann geben die alten Programme oft auf oder machen dumme Fehler.

Die Lösung: UMQ – Der "Qualitäts-Manager"

Die Forscher von der South China Normal University und der Sun Yat-sen Universität haben eine neue Methode namens UMQ (Unified Modality-Quality Framework) entwickelt. Man kann sich das wie einen sehr klugen Chef vorstellen, der ein Team von Handwerkern leitet, auch wenn deren Werkzeuge defekt sind.

Hier ist, wie dieser Chef arbeitet, in drei einfachen Schritten:

1. Der Qualitäts-Prüfer (Der "Richter")

Bevor das Team anfängt zu arbeiten, schaut sich der Chef jeden Experten genau an.

Das Problem: Früher wussten Computer nicht genau, wie "gut" oder "schlecht" eine Information ist. Sie bekamen oft nur vage Anweisungen.
Die Lösung: Der Chef nutzt eine clevere Methode namens "Ranking". Statt zu sagen: "Du bist genau 7,5 Punkte gut", sagt er: "Du bist besser als der Typ da drüben, aber schlechter als der da."
Der Vergleich: Stellen Sie sich einen Sporttrainer vor. Er weiß vielleicht nicht genau, wie viele Sekunden ein Läufer laufen muss, um Gold zu gewinnen, aber er weiß genau, wer schneller ist als wer. So lernt der Computer, die Qualität der Daten relativ zueinander einzuschätzen, ohne sich in falschen Zahlen zu verirren.

2. Der Qualitäts-Verbesserer (Der "Reparatur-Service")

Wenn ein Experte schlechte Daten liefert (z. B. ein verrauschtes Audio-Signal), versucht der Chef nicht, das Signal einfach zu löschen. Er versucht, es zu reparieren.

Wie? Er nutzt zwei Dinge:
1. Die anderen Experten: Wenn der Audio-Experte schlecht hört, fragt er den Video-Experten: "Hey, ich sehe, dass er lacht. Also muss die Stimme auch fröhlich klingen, oder?" Er nutzt also den Kontext der anderen Sinne.
2. Das "Grundwissen": Der Chef hat eine Art "Bibliothek" mit dem typischen Verhalten jedes Experten. Er weiß, wie eine normale menschliche Stimme klingt. Wenn das Audio verrauscht ist, gleicht er es an dieses Grundmuster an, aber behält trotzdem die einzigartigen Details des aktuellen Satzes bei.
Der Vergleich: Es ist wie ein Restaurator, der ein altes, schmutziges Gemälde reinigt. Er nutzt Wissen über den ursprünglichen Stil des Malers (das Grundwissen) und die Farben der umliegenden Bilder (die anderen Experten), um die fehlenden oder verschmierten Stellen so zu füllen, dass es wieder wie das Original aussieht, ohne einfach nur eine neue Farbe aufzutragen.

3. Der Spezialisten-Rotationsdienst (Der "Schalter")

Das ist der coolste Teil. Da es unzählige Kombinationen geben kann (z. B. "Audio schlecht, Video gut, Text perfekt" ODER "Alle drei schlecht"), kann ein einziger Algorithmus nicht für alles das Gleiche tun.

Die Lösung: UMQ nutzt ein System namens MoE (Mixture of Experts). Stellen Sie sich ein riesiges Büro mit vielen verschiedenen Spezialisten vor.
Der Mechanismus: Ein intelligenter Schalter (Router) schaut sich das Problem an.
- Kommt ein Fall, bei dem nur das Audio fehlt? -> Der Schalter schickt den Fall an Spezialist A.
- Kommt ein Fall, bei dem alles verrauscht ist? -> Der Schalter schickt den Fall an Spezialist B.
Die Regel: Der Schalter ist so programmiert, dass er Fälle mit demselben Problem immer an denselben Spezialisten schickt. Das sorgt dafür, dass jeder Spezialist in seiner Nische extrem gut wird.

Warum ist das so wichtig?

Früher mussten Forscher für jedes Problem (fehlende Daten, verrauschte Daten) ein neues Programm bauen. UMQ ist wie ein Schweizer Taschenmesser: Es ist ein einziges System, das mit jedem Typ von schlechter Datenqualität umgehen kann.

Die Ergebnisse:
In Tests (mit echten Videos, in denen Menschen über Gefühle sprechen) hat UMQ alle bisherigen Rekorde gebrochen. Es funktioniert nicht nur, wenn alles perfekt ist, sondern besonders gut, wenn die Daten chaotisch sind – genau wie im echten Leben.

Zusammenfassung in einem Satz

UMQ ist ein intelligenter Computer-Assistent, der lernt, wie "gut" seine Informationen sind, sie mit Hilfe von Kontext und Grundwissen repariert und dann den perfekten Spezialisten für das jeweilige Problem auswählt, damit er auch bei chaotischen Daten immer die richtige Antwort findet.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

In realen Szenarien ist multimodale Datenqualität oft beeinträchtigt. Zwei Hauptprobleme hindern die Leistung und Robustheit von Modellen erheblich:

Fehlende Modalitäten (Missing Modalities): Tritt auf, wenn Sensoren ausfallen oder Daten nicht verfügbar sind (z. B. fehlendes Audio oder Video).
Verrauschte Modalitäten (Noisy Modalities): Entstehen durch Hintergrundstörungen, Sensorungenauigkeiten oder Übertragungsartefakte.

Bisherige Arbeiten behandeln diese beiden Probleme meist separat. Da sie jedoch in der Praxis häufig gleichzeitig auftreten, begrenzt eine getrennte Behandlung die Anwendbarkeit und Robustheit der Modelle. Das Ziel dieses Papers ist es, einen einheitlichen Rahmen zu schaffen, der beide Probleme gemeinsam adressiert, um die Robustheit in Szenarien mit Datenminderwertigkeit zu erhöhen.

2. Methodik: Das Unified Modality-Quality (UMQ) Framework

Das vorgeschlagene UMQ-Framework betrachtet fehlende Modalitäten als einen speziellen Fall von verrauschten Modalitäten (wo das Rauschmuster bekannt ist). Es besteht aus drei synergistischen Komponenten:

A. Qualitäts-Schätzer (Quality Estimator) mit rank-geführtem Training

Ziel: Die Qualität jeder unimodalen Repräsentation explizit zu quantifizieren.
Herausforderung: Absolute Qualitätslabels sind schwer zu bestimmen und führen zu Trainingsrauschen.
Lösung: Die Autoren verwenden eine rank-geführte Trainingsstrategie (Rank-Guided Training). Anstatt absolute Werte vorherzusagen, lernt der Schätzer, die relative Qualität verschiedener Repräsentationen zu vergleichen.
- Extremfälle: Repräsentationen mit sehr hohem Vorhersagefehler (simuliert durch Rauschen) erhalten ein Label von 0, sehr gute Repräsentationen (unter einem Schwellenwert) erhalten ein hohes Label (>0,95).
- Zwischenfälle: Für Repräsentationen dazwischen wird ein Ranking-Loss verwendet, der sicherstellt, dass die geschätzte Qualität der ursprünglichen Repräsentation höher ist als die einer verrauschten Version. Dies vermeidet Rauschen durch ungenaue absolute Labels.

B. Qualitäts-Verbesserer (Quality Enhancer)

Ziel: Die Qualität unimodaler Repräsentationen zu verbessern, ohne modality-spezifische Informationen zu verlieren.
Mechanismus: Der Verbesserer nutzt zwei Informationsquellen:
1. Proben-spezifische Informationen (Sample-Specific): Informationen von anderen Modalitäten, gewichtet nach deren geschätzter Qualität ( $\alpha_{m'}$ ).
2. Modalität-spezifische Informationen (Modality-Specific): Eine definierte Modalitäts-Baseline-Repräsentation ( $x^b_m$ ), die die globale Verteilung und inhärenten Eigenschaften der jeweiligen Modalität erfasst.
Modality Decoupling: Um diese Informationen zu trennen, wird ein Entkopplungsnetzwerk verwendet, das die Repräsentation in eine proben-spezifische ( $x^s_m$ ) und eine modalität-spezifische ( $x^c_m$ ) Komponente zerlegt. Die Baseline wird als gleitender Durchschnitt der $x^c_m$ plus einem trainierbaren Bias konstruiert, um Hardware-bedingtes Rauschen auszugleichen.
Ergebnis: Der Verbesserer generiert hochwertige Repräsentationen, die sowohl kontextuelle als auch modalitätsspezifische Details enthalten.

C. Modalitäts-Qualitäts-bewusstes Mixture-of-Experts (MQ-MoE)

Herausforderung: Bei $|M|$ Modalitäten gibt es $2^{|M|}$ mögliche Qualitätskombinationen (hoch/niedrig). Ein einzelner gemeinsamer Prädiktor ist für diese kombinatorische Explosion ineffizient.
Lösung: Ein MQ-MoE-Architektur mit spezialisierten Expertenmodulen.
- Ein Routing-Mechanismus leitet Daten basierend auf ihrer Qualitätskonfiguration an spezifische Experten weiter.
- Constraints: Es werden Verlustfunktionen eingeführt ( $L_{same}$ ), um sicherzustellen, dass Proben mit identischer Qualitätskonfiguration (z. B. beide haben schlechtes Audio, aber gutes Video) an ähnliche Experten weitergeleitet werden, während sich unterscheidende Konfigurationen unterschiedliche Experten aktivieren. Dies ermöglicht eine spezifische Behandlung jedes Szenarios innerhalb eines einheitlichen Rahmens.

3. Schlüsselbeiträge

Einheitlicher Rahmen: Erstmalige gemeinsame Behandlung von fehlenden und verrauschten Modalitäten in einem einzigen Framework (UMQ), was die Robustheit in realen Szenarien signifikant erhöht.
Rank-Guided Training: Entwicklung einer Trainingsstrategie für den Qualitäts-Schätzer, die auf relativen Vergleichen statt auf absoluten Labels basiert, um Rauschen zu minimieren.
Innovativer Qualitäts-Verbesserer: Nutzung von Modalitäts-Baselines und proben-spezifischen Informationen, um Repräsentationen zu verbessern, ohne die modalitätsspezifischen Merkmale zu verlieren (ein häufiges Problem bei reinen Rekonstruktionsansätzen).
MQ-MoE Architektur: Ein Routing-Mechanismus, der es ermöglicht, diverse Kombinationen aus fehlenden und verrauschten Modalitäten spezifisch und effizient zu verarbeiten.

4. Ergebnisse

Das UMQ-Modell wurde auf mehreren Datensätzen für multimodale Affektcomputing-Aufgaben evaluiert:

Datensätze: CMU-MOSI, CMU-MOSEI (Sentiment-Analyse), CH-SIMS, UR-FUNNY (Humor-Erkennung), MUStARD (Sarkasmus-Erkennung).
Vollständige Modalitäten: UMQ erreicht State-of-the-Art (SOTA) Ergebnisse auf allen Datensätzen, selbst wenn keine Modalitäten fehlen, was die Wirksamkeit der Qualitätsverbesserung und des MQ-MoE unterstreicht.
Fehlende Modalitäten: UMQ übertrifft starke Baselines (wie GCNet, MoMKE) konsistent über alle Fehlerraten (0.1 bis 0.7). Es zeigt eine hohe Robustheit, da es fehlende Daten durch Rauschen simuliert und durch den Qualitäts-Verbesserer kompensiert.
Verrauschte Modalitäten: Bei Addition von Gaußschem Rauschen (bis zu 70% Rauschrate) und anderen Rauscharten (Laplace, Random Erasing) bleibt UMQ stabil und übertrifft Methoden wie C-MIB und Multimodal Boosting deutlich, insbesondere bei der Reduktion des mittleren absoluten Fehlers (MAE).
Ablationsstudien: Die Entfernung des Qualitäts-Schätzers oder des rank-geführten Trainings führt zu den stärksten Leistungseinbußen, was die zentrale Rolle dieser Komponenten bestätigt.

5. Bedeutung

Das Paper bietet einen wichtigen Fortschritt im Bereich des multimodalen Lernens für reale Anwendungen. Da reale Daten fast immer unvollständig oder verrauscht sind, ist die Fähigkeit eines Modells, mit diesen Mängeln umzugehen, entscheidend für den praktischen Einsatz.

Generalisierung: Der Ansatz generalisiert gut auf verschiedene Aufgaben (Sentiment, Humor, Sarkasmus) und Datensätze.
Effizienz: Durch die Nutzung von Experten für spezifische Qualitätskonfigurationen wird die Modellleistung optimiert, ohne die Komplexität eines einzelnen riesigen Modells zu erhöhen.
Praxisrelevanz: Das Framework adressiert direkt die Herausforderungen der Datenqualität, die bisher oft vernachlässigt wurden, und bietet eine robuste Lösung für den Einsatz in unkontrollierten Umgebungen.

Zusammenfassend stellt UMQ einen Paradigmenwechsel dar, der Datenminderwertigkeit nicht als separates Problem, sondern als integralen Teil des Lernprozesses behandelt, um widerstandsfähigere und genauere multimodale Systeme zu schaffen.