Massively Multimodal Foundation Models: A Framework for Capturing Interactions with Specialized Mixture-of-Experts

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein Chef in einer riesigen, chaotischen Küche.

Normalerweise kochen wir mit ein paar Zutaten: Mehl, Eier, Milch. Das ist wie herkömmliches maschinelles Lernen, das nur Text, Bilder und Audio verarbeitet. Aber in der echten Welt (besonders in der Medizin oder bei Wearables) hast du nicht nur drei Zutaten. Du hast Dutzende oder sogar Hunderte von Sensoren: Herzfrequenz, Blutdruck, Sauerstoffgehalt, Schrittzähler, Wetterdaten, Sprachaufnahmen, Röntgenbilder – alles gleichzeitig.

Das nennt die Wissenschaft „massiv multimodal". Das Problem? Diese Daten sind verrückt. Sie kommen in verschiedenen Geschwindigkeiten, haben unterschiedliches Rauschen und – das ist das Wichtigste – sie beeinflussen sich gegenseitig mit einer Verzögerung.

Das Problem: Der vergessene Zeitfaktor
Stell dir vor, ein Patient nimmt ein Medikament (Zutat A). Erst nach 2 Stunden steigt sein Fieber (Zutat B). Ein normales KI-Modell schaut sich nur an, was gerade passiert. Es sieht das Medikament und das Fieber nicht zusammen, weil sie nicht gleichzeitig da sind. Es verpasst also den Zusammenhang.

Frühere KI-Modelle (die sogenannten „Mixture-of-Experts" oder MoE) funktionieren wie ein Restaurant mit vielen Köchen (Experten). Wenn eine Bestellung reinkommt, schaut ein Dispatcher (Router), welcher Koch am besten passt. Aber bisher hat der Dispatcher nur geschaut: „Sieht diese Bestellung wie eine Pizza aus? Dann nimm den Pizzakoch." Er hat nicht bedacht, dass die Bestellung vielleicht erst nach einer Wartezeit zu einer Pizza wird oder dass zwei Zutaten erst zusammen etwas Neues ergeben.

Die Lösung: MERGE – Der „Zeit-Weiser" Chef
Die Autoren des Papers haben eine neue Architektur namens MERGE entwickelt. Stell dir das wie einen super-intelligenten Küchenchef vor, der nicht nur schaut, was auf dem Teller liegt, sondern auch wann die Zutaten hereinkamen und wie sie sich über die Zeit verändern.

Hier ist die Magie in drei einfachen Schritten:

1. Die „Zeit-Brille" (RUS-Analyse)

Der Chef nutzt eine spezielle Brille, um die Beziehungen zwischen den Zutaten über die Zeit zu sehen. Er misst drei Dinge:

Redundanz (Wiederholung): Wenn zwei Sensoren fast das Gleiche sagen (z. B. zwei Uhren, die die gleiche Zeit anzeigen). Das ist langweilig, aber sicher.
Einzigartigkeit (Unikates): Wenn ein Sensor etwas sagt, das kein anderer kann (z. B. ein spezieller Hautsensor). Das ist wertvoll und braucht einen eigenen Spezialisten.
Synergie (Das Zaubertrank-Prinzip): Das ist das Coolste. Wenn zwei Zutaten zusammen etwas Neues ergeben, das sie allein nicht könnten. Wie bei einem Cocktail: Rum allein ist okay, Cola allein ist okay, aber zusammen ist es ein Rum-Cola-Gerät, das etwas ganz Neues ist. Und das passiert oft erst, wenn man die Zutaten mit einer gewissen Zeitverzögerung mischt.

2. Der intelligente Dispatcher (Router)

In der Küche gibt es jetzt verschiedene Arten von Köchen (Experten):

Der Generalist: Macht einfache Aufgaben.
Der Spezialist für Wiederholungen: Nimmt die redundanten Daten und fasst sie zusammen.
Der Spezialist für Einzigartigkeit: Hält die einzigartigen Daten fest.
Der Zauberer (Synergie-Experte): Dieser Koch ist der Star. Er wartet speziell auf Datenpaare, die sich mit einer Verzögerung gegenseitig beeinflussen.

Der Router (der Dispatcher) schaut sich nun nicht nur die Daten an, sondern fragt: „Hey, diese Herzfrequenz und dieser Blutzucker-Wert haben vor 2 Stunden eine starke Synergie gezeigt! Wir müssen diese beiden Daten sofort zum Zauberer-Koch schicken, damit er das Muster erkennt!"

3. Das Ergebnis: Bessere Vorhersagen

Durch diese Methode lernt die KI, wie die Welt wirklich funktioniert: nicht als statisches Foto, sondern als Film mit Verzögerungen.

Warum ist das so toll?

In der Medizin: Es kann früher erkennen, dass ein Patient Sepsis (Blutvergiftung) bekommt, weil es den Zusammenhang zwischen einem langsamen Abfall des Sauerstoffs und dem späteren Anstieg des Fiebers versteht.
Bei Aktivitäten: Es versteht, dass das Schwingen der Arme beim Laufen mit dem Schwanken des Oberkörpers zusammenhängt (Redundanz), aber dass ein Stolpern eine neue, einzigartige Signatur hat.
Erklärbarkeit: Man kann genau sehen, warum die KI eine Entscheidung getroffen hat. „Wir haben das Fieber vorhergesagt, weil wir sahen, dass das Medikament vor 2 Stunden Synergie mit dem Blutdruck hatte."

Zusammenfassung in einem Satz:
MERGE ist wie ein Koch, der nicht nur die Zutaten zählt, sondern genau weiß, welche Zutaten sich nach welcher Zeit gegenseitig beeinflussen, und die richtigen Spezialisten genau dann ruft, wenn diese magischen Momente eintreten. Das macht die KI nicht nur schlauer, sondern auch verständlicher.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Moderne Anwendungen, insbesondere im Gesundheitswesen, tragen zunehmend „massiv multimodale" Datenströme mit sich. Im Gegensatz zu traditionellen multimodalen Ansätzen, die sich oft auf wenige Kanäle (z. B. Text, Bild, Audio) konzentrieren, umfassen diese Szenarien Dutzende bis Hunderte heterogener Eingangsströme (z. B. klinische Sensoren, Wearables, Bildgebung, Laborwerte).

Die zentrale Herausforderung besteht darin, die komplexen, zeitlich variierenden Interaktionen zwischen diesen Modalitäten zu erfassen. Diese Interaktionen sind oft verzögert (z. B. führt eine physiologische Reaktion in einem Sensor erst Stunden später zu einer messbaren Änderung in einem anderen).

Limitierung bestehender Ansätze: Herkömmliche Mixture-of-Experts (MoE) Architekturen leiten Tokens (Datenpunkte) basierend auf reinen Ähnlichkeitsmetriken an spezialisierte Experten weiter. Dies ignoriert jedoch die reichhaltigen temporalen Abhängigkeiten und verzögerten Effekte zwischen Modalitäten.
Folge: Die Experten spezialisieren sich suboptimal, und das Modell verpasst kausale Ketten oder synergistische Muster, die nur über Zeitverzögerungen hinweg sichtbar werden.

2. Methodik: MERGE Framework

Die Autoren schlagen MERGE (Massively-multimodal Expert Routing for Generalized Exchange) vor, ein Framework, das zeitliche multimodale Interaktionen explizit quantifiziert, um das Routing in MoE-Modellen zu steuern.

A. Erfassung temporaler multimodaler Interaktionen (RUS)

Das Kernstück ist die Berechnung von Redundanz (R), Einzigartigkeit (U) und Synergie (S) über die Zeit.

Theoretische Basis: Das Framework erweitert die Partial Information Decomposition (PID) auf zeitliche Abläufe, indem es gerichtete Information (Directed Information) verwendet. Dies erlaubt die Analyse von Informationsflüssen von vergangenen Werten einer Modalität zu zukünftigen Werten einer anderen (bzw. zum Ziel).
Berechnung: Für verschiedene Zeitverzögerungen ( $\tau$ $τ$ ) wird die Information in R, U und S zerlegt:
- Redundanz (R): Geteilte Information zwischen Modalitäten.
- Einzigartigkeit (U): Modalitätsspezifischer Informationsbeitrag.
- Synergie (S): Neue Information, die nur durch die Kombination entsteht.
Effiziente Schätzung: Um die hohe Dimensionalität und den Rechenaufwand zu bewältigen, wird ein Multi-Scale BATCH Estimator entwickelt. Dieser trainiert einen einzigen Modell-Backbone, um RUS-Werte für multiple Zeitverzögerungen parallel zu schätzen, anstatt sie schrittweise zu berechnen. Dies nutzt neuronale Netze zur Approximation von Verteilungen und den Sinkhorn-Knopp-Algorithmus zur Einhaltung von Randverteilungsbedingungen.

B. RUS-bewusstes MoE-Routing

Die berechneten temporalen RUS-Werte steuern einen interaktionsbewussten Router, der Tokens an spezialisierte Experten weiterleitet:

Routing-Strategien:
- Hohe Redundanz: Tokens werden zum selben Experten geleitet (frühe Fusion).
- Hohe Einzigartigkeit: Tokens werden auf verschiedene Experten verteilt (späte Fusion).
- Hohe Synergie: Tokens werden an spezielle „Synergie-Experten" geleitet, die Cross-Attention-Module enthalten, um die Interaktion explizit zu modellieren.
Architektur: Der Router nutzt eine Kombination aus Attention-Mechanismen (für Redundanz/Synergie) und einem GRU-Modul (für die zeitliche Dynamik der Einzigartigkeit), um die Routing-Entscheidung zu treffen.
Verlustfunktionen: Während des Trainings werden zusätzliche Hilfsverluste (Auxiliary Losses) eingeführt, die den Router zwingen, den RUS-Werten zu folgen (z. B. Minimierung der Divergenz zwischen Routing-Verteilungen bei hoher Redundanz).

3. Wichtige Beiträge

Neues Paradigma für Massive Multimodalität: Definition und Behandlung von Szenarien mit Hunderten von Modalitäten, wobei jede als eigenständige Modality behandelt wird.
Temporal RUS Quantifizierung: Einführung einer Methode zur effizienten Berechnung von zeitverzögerten PID-Komponenten (R, U, S) für hochdimensionale, kontinuierliche Daten.
Interpretierbares Routing: Ersetzung des „Black-Box"-Routings (basierend nur auf Ähnlichkeit) durch ein prinzipiengeleitetes Routing, das auf informationstheoretischen Interaktionsmustern basiert. Dies ermöglicht es, warum ein Token zu einem bestimmten Experten geht, zu erklären.
Skalierbarkeit: Entwicklung des Multi-Scale BATCH Estimators, der die Berechnung von temporalen Interaktionen für große Datensätze praktikabel macht.

4. Ergebnisse

Das Framework wurde auf sechs verschiedenen Benchmarks getestet (Gesundheitswesen: MIMIC-IV, PAMAP2, WESAD, Opportunity; Affektcomputing: MOSI).

Leistungssteigerung: MERGE übertrifft konsistent State-of-the-Art-Modelle, darunter Standard-Transformer, mTAND, MulT, MISTS sowie andere MoE-Ansätze wie FuseMoE und I2MoE.
- Beispiel: Auf MIMIC-IV (Vorhersage von Krankenhaussterblichkeit) erreichte MERGE eine AUROC von 85,40 (vs. 82,33 bei FuseMoE).
- Beispiel: Auf PAMAP2 (Aktivitätserkennung) wurde eine Genauigkeit von 91,37% erreicht (vs. 87,74% bei FuseMoE).
Qualitative Einsichten: Die analysierten RUS-Werte liefern domain-spezifische Erkenntnisse.
- Im medizinischen Kontext zeigte sich, dass Insulin und Furosemide zunächst synergistisch wirken, während ihre Einzigartigkeit später dominiert.
- Bei Aktivitätserkennung zeigten Brust- und Handbewegungen eine starke Redundanz, was das Routing an denselben Experten bestätigte.
Interpretierbarkeit: Die Analyse der Experten-Aktivierungsraten zeigt, dass MERGE Modalitäten basierend auf ihrer Interaktionsart (Synergie vs. Redundanz) logisch gruppiert, während Standard-MoE-Modelle willkürliche Zuweisungen treffen.
Robustheit: Ablationsstudien zeigen, dass alle drei Interaktionstypen (R, U, S) für die Leistung wichtig sind und dass das Modell robust gegenüber leicht verrauschten RUS-Schätzungen ist, aber bei stark verwässerten Signalen leidet.

5. Bedeutung und Ausblick

MERGE adressiert eine kritische Lücke in der multimodalen KI: Die Fähigkeit, zeitliche Kausalitäten und verzögerte Effekte zwischen vielen Sensoren zu nutzen.

Praktische Relevanz: Besonders im Gesundheitswesen, wo physiologische Prozesse verzögert ablaufen, ermöglicht MERGE präzisere Vorhersagen und ein besseres Verständnis der Krankheitsdynamik.
Zukunftsperspektiven: Die Autoren sehen Potenzial in der Erweiterung auf räumlich-zeitliche Dynamiken, die Anwendung auf Large Language Models (LLMs) mit MoE-Architekturen und die Integration in World-Models, wo das Verständnis zeitlicher Interaktionen entscheidend für die Vorhersage von Zukunftszuständen ist.

Zusammenfassend stellt MERGE einen fundamentalen Schritt dar, um von statischen multimodalen Fusionen hin zu dynamischen, zeitbewussten und interpretierbaren Foundation Models zu gelangen.

Massively Multimodal Foundation Models: A Framework for Capturing Interactions with Specialized Mixture-of-Experts

1. Die „Zeit-Brille" (RUS-Analyse)

2. Der intelligente Dispatcher (Router)

3. Das Ergebnis: Bessere Vorhersagen

1. Problemstellung

2. Methodik: MERGE Framework

A. Erfassung temporaler multimodaler Interaktionen (RUS)

B. RUS-bewusstes MoE-Routing

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

A Benchmark of Classical and Deep Learning Models for Agricultural Commodity Price Forecasting on A Novel Bangladeshi Market Price Dataset

Probabilistic Language Tries: A Unified Framework for Compression, Decision Policies, and Execution Reuse

FLeX: Fourier-based Low-rank EXpansion for multilingual transfer

Spectral Edge Dynamics Reveal Functional Modes of Learning

S3S^3S3: Stratified Scaling Search for Test-Time in Diffusion Language Models

$S^3$ : Stratified Scaling Search for Test-Time in Diffusion Language Models