MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der einsame Tabellen-Experte

Stell dir vor, du hast einen genialen Koch namens TabPFN. Dieser Koch ist ein Weltmeister darin, Gerichte aus reinen Zutatenlisten (Tabellendaten) zu kochen. Er kann aus einer Liste von Zahlen und Kategorien (z. B. „Alter: 30", „Haarfarbe: Braun") sofort vorhersagen, ob jemand ein bestimmtes Produkt kaufen wird oder ob eine medizinische Diagnose positiv ist. Er ist schnell, effizient und braucht wenig Zutaten, um ein Meisterwerk zu liefern.

Aber das Leben ist komplexer als eine reine Zutatenliste.

Ein Arzt hat nicht nur die Laborwerte (Tabelle), sondern auch ein Röntgenbild (Bild).
Ein Immobilienmakler hat nicht nur die Quadratmeterzahl (Tabelle), sondern auch Besitzerbewertungen (Text).

Der alte Koch TabPFN war jedoch verwirrt, als man ihm ein Bild oder einen Text gab. Er wusste nicht, wie er diese „fremden" Informationen in seine Zutatenliste integrieren sollte. Er ignorierte sie einfach oder versuchte es so schlecht, dass das Gericht schmeckte wie Matsch.

Die Lösung: MultiModalPFN (MMPFN)

Die Autoren dieses Papiers haben dem Koch einen multimodalen Assistenten an die Seite gestellt. Sie nennen das neue System MMPFN.

Stell dir MMPFN wie eine hochmoderne Küche mit einem Übersetzer-Team vor:

Die Spezialisten (Encoder):
- Für Bilder gibt es einen Bild-Experten (ein KI-Modell namens DINOv2), der das Röntgenbild anschaut und sagt: „Das sieht aus wie ein kleiner Tumor."
- Für Text gibt es einen Text-Experten (ELECTRA), der die Kundenbewertungen liest und sagt: „Der Kunde ist sehr zufrieden."
- Für die Tabelle bleibt der alte TabPFN-Experte.
Der Übersetzer (Modality Projector):
Das ist der wichtigste Teil der Erfindung. Die Bilder und Texte liegen in einer fremden Sprache vor, die TabPFN nicht versteht.
- Der Übersetzer nimmt die Informationen des Bild- und Text-Experten und wandelt sie in eine neue, tabellenfreundliche Sprache um.
- Das Problem: Früher haben solche Übersetzer versucht, das ganze Bild in ein einziges Wort zu packen (wie eine Zusammenfassung). Das war oft zu wenig Information – wie wenn man einen ganzen Film auf ein einziges Wort reduziert.
- Die Lösung (MGM): Die neuen Autoren sagen: „Nein, wir brauchen mehr Wörter!" Sie nutzen eine Technik namens Multi-head Gated MLP (MGM). Stell dir das vor wie einen Übersetzer, der ein Bild nicht in ein Wort, sondern in 32 oder 64 kleine, präzise Wörter zerlegt. So bleibt viel mehr Detail erhalten.
Der Regisseur (Cross-Attention Pooler):
Jetzt haben wir plötzlich 32 Wörter für das Bild und vielleicht nur 5 Wörter für die Tabelle. Wenn der Koch (TabPFN) jetzt versucht, alles zu verarbeiten, schreit das Bild so laut (weil es so viele Wörter hat), dass die Tabelle gar nicht mehr gehört wird. Das nennt man Aufmerksamkeits-Ungleichgewicht.
- Hier kommt der Cross-Attention Pooler (CAP) ins Spiel. Er ist wie ein Regisseur, der die 32 Bild-Wörter nimmt und sie zu 4 starken, kompakten Sätzen zusammenfasst.
- Ergebnis: Die Tabelle und die Bilder haben jetzt eine faire Anzahl an „Wörtern" und können sich im Gespräch (der KI) gleichberechtigt anhören.

Warum ist das so erfolgreich?

Die Autoren haben dieses System an vielen Orten getestet, von Hautkrebs-Diagnosen bis hin zu Jobanzeigen.

Bessere Ergebnisse: MMPFN war fast immer besser als alle anderen Methoden. Es konnte die Informationen aus Bildern und Texten nutzen, um genauere Vorhersagen zu treffen als Systeme, die nur Tabellen oder nur Bilder betrachteten.
Geringe Datenmenge: Das Tolle an TabPFN ist, dass er schon viel gelernt hat (er wurde auf Millionen von synthetischen Tabellen trainiert). MMPFN nutzt dieses Vorwissen. Das bedeutet: Selbst wenn man nur wenige echte Patienten oder wenige Kundenbewertungen hat, funktioniert das System hervorragend. Es muss nicht von vorne anfangen lernen, sondern passt nur leicht an.
Fairness: Durch den cleveren „Regisseur" (CAP) wird verhindert, dass die Bilder die Tabelle unterdrücken oder umgekehrt. Alles wird fair gewichtet.

Zusammenfassung in einem Satz

MultiModalPFN ist wie ein genialer Koch, der endlich gelernt hat, nicht nur mit Zutatenlisten zu kochen, sondern auch Bilder und Texte in seine Rezepte zu integrieren – indem er sie in eine Sprache übersetzt, die er versteht, und dabei sicherstellt, dass keine Information verloren geht oder zu laut schreit.

Das macht es zu einem mächtigen Werkzeug für Bereiche wie Medizin, Marketing und Finanzen, wo Daten oft aus gemischten Quellen bestehen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Tabulardaten sind in Bereichen wie Gesundheitswesen, Finanzen und Marketing allgegenwärtig. Während Gradient-Boosting-Verfahren (z. B. XGBoost, CatBoost) hier traditionell dominieren, haben neuere Deep-Learning-Ansätze wie TabPFN (Tabular Prior-data Fitted Network) als Foundation-Modelle für tabulardatenbasierte Inferenz große Erfolge gezeigt. TabPFN behandelt überwachtes Lernen auf Tabellen als amortisierte bayessche Inferenz und erzielt auf kleinen bis mittelgroßen Datensätzen starke Ergebnisse ohne aufwändiges Fine-Tuning.

Das Hauptproblem besteht jedoch darin, dass TabPFN und ähnliche Modelle bisher nur für rein tabulare Daten trainiert wurden. In der Praxis treten jedoch häufig heterogene multimodale Szenarien auf, bei denen strukturierte Tabulardaten mit unstrukturierten Modalitäten wie Bildern (z. B. medizinische Röntgenaufnahmen) oder Texten (z. B. Patientenberichte, Produktbewertungen) kombiniert werden müssen.
Bestehende Ansätze zur Integration dieser Modalitäten leiden unter zwei wesentlichen Schwächen:

Begrenzte Leistung bei Datenknappheit: Deep-Learning-Modelle, die Tabulardaten und Bilder/Texte gemeinsam einbetten, benötigen oft große Datenmengen und leiden unter schlechter Generalisierung bei wenigen gelabelten Beispielen.
Fehlermodi in der Multimodalität:
- Überkomprimierte Embeddings: Unstrukturierte Daten (Bilder/Text) werden oft auf einen einzigen Token (z. B. [CLS]) reduziert, was zu Informationsverlust führt.
- Aufmerksamkeits-Ungleichgewicht (Attention Imbalance): Wenn die Anzahl der Tokens einer Modalität (z. B. viele Bild-Patches) die einer anderen (z. B. wenige Tabular-Features) stark übersteigt, dominiert die Modalität mit mehr Tokens den Aufmerksamkeitsmechanismus (Attention Budget) und unterdrückt die Signale der anderen Modalität.

2. Methodik: Multi-Modal Prior-data Fitted Network (MMPFN)

Die Autoren stellen MMPFN vor, eine Erweiterung von TabPFN, die tabulare und nicht-tabulare Modalitäten in einem einheitlichen Rahmen verarbeitet. Die Architektur besteht aus drei Hauptkomponenten:

A. Per-Modalität-Encoder (Per-Modality Encoders)

Jede Eingabe wird durch spezialisierte Encoder verarbeitet:

Tabular: Der TabPFN v2 Encoder (eingefroren während des Fine-Tunings).
Bild: Ein DINOv2 ViT-B/14 Backbone, wobei der finale [CLS]-Token als globale Bildrepräsentation genutzt wird.
Text: Ein ELECTRA-basierter Encoder (basierend auf Vorversuchen besser als DeBERTa), der Text auf maximal 512 Tokens trunciert und den [CLS]-Embedding nutzt.

B. Modality Projector (Der kritische Brückenschlag)

Dies ist das Herzstück der Innovation, das nicht-tabulare Embeddings in den tabular-kompatiblen Raum transformiert. Er besteht aus zwei Subschichten:

Multi-head Gated MLP (MGM):
- Statt den [CLS]-Token direkt zu verwenden, wird er durch $N$ parallele MLP-Köpfe projiziert.
- Ein Gated Linear Unit (GLU) moduliert den Beitrag jedes Kopfes. Dies erweitert die unstrukturierte Repräsentation in mehrere Tokens ( $N$ ), um eine Überkomprimierung zu vermeiden und diverse Aspekte der Bild-/Textdaten zu erfassen.
Cross-Attention Pooler (CAP):
- Um das Problem des Aufmerksamkeits-Ungleichgewichts zu lösen, nimmt CAP die $N$ MGM-Tokens als Keys und Values.
- $K$ lernbare Query-Vektoren führen eine Cross-Attention durch und komprimieren die Informationen in eine kompakte, ausgeglichene Menge von $K$ Tokens pro Modalität.
- Diese $K$ Tokens werden dann mit den Tabular-Tokens entlang der Feature-Dimension konkateniert, um die Eingabetabelle für den TabPFN-Backbone zu bilden.

C. Training und Inferenz

Fine-Tuning-Protokoll: Da TabPFN auf synthetischen Daten vortrainiert ist, werden die Encoder (Tabular, Bild, Text) eingefroren. Nur der Modality Projector, der TabPFN-Backbone und der Decoder-Head werden auf den multimodalen Daten trainiert.
In-Context-Inferenz: Die Trainings- und Testdaten werden wie bei TabPFN üblich zu einer einzigen Tabelle konkateniert und dem Backbone übergeben.

3. Schlüsselbeiträge

Erster einheitlicher Framework-Ansatz: MMPFN ist das erste Framework, das TabPFN (ein auf synthetischen tabularen Verteilungen vortrainiertes Modell) erfolgreich auf heterogene Eingaben (Tabular + Bild/Text) erweitert.
Identifikation und Lösung von Fehlermodi: Die Autoren identifizieren systematisch „überkomprimierte Embeddings" und „Aufmerksamkeits-Ungleichgewicht" als Hauptprobleme. Sie führen MGM und CAP als spezifische Komponenten ein, um diese zu adressieren.
Skalierbarkeit und Robustheit: Die Methode skaliert positiv mit dem Hinzufügen weiterer Modalitäten und behält die Stärken von TabPFN bei Datenknappheit (Low-Data-Regimes) bei.

4. Ergebnisse

Die Autoren evaluieren MMPFN auf einer Vielzahl von medizinischen und allgemeinen multimodalen Datensätzen (z. B. PAD-UFES-20, CBIS-DDSM, Airbnb, PetFinder).

Leistung: MMPFN übertrifft konsistent State-of-the-Art-Methoden (wie MMCL, TIP, HEALNet, TIME, AutoGluon) auf fast allen Datensätzen.
- Auf Tabular-Bild-Datensätzen erzielt MMPFN den besten Durchschnittsrang und verbessert sich gegenüber rein tabularen Baselines durch die Nutzung von Bildmerkmalen.
- Auf Tabular-Text-Datensätzen zeigt MMPFN eine starke Leistung, insbesondere in Szenarien, in denen strukturierte Daten dominieren, übertrifft aber auch text-spezialisierte Modelle in gemischten Settings.
Analyse der Komponenten:
- MGM vs. Einfache Projektion: Der Vergleich zeigt, dass einfache lineare Projektionen oder einzelne MLPs unterperformen, da sie Informationen überkomprimieren. Die Multi-Head-Architektur von MGM ist entscheidend.
- CAP vs. FiLM: Der Cross-Attention Pooler (CAP) übertrifft Feature-wise Linear Modulation (FiLM) deutlich, da er das Token-Count-Ungleichgewicht aktiv steuert und verhindert, dass eine Modalität den Attention-Mechanismus monopolisiert.
Low-Data-Regime: Selbst bei Verwendung von nur 10 % der Trainingsdaten bleibt MMPFN robuster als vergleichbare Modelle (z. B. TIP), was die Effektivität des auf synthetischen Priors basierenden Ansatzes unterstreicht.
Skalierung: Die Genauigkeit steigt monoton, wenn von rein tabularen Daten zu Tabular+Text, Tabular+Bild und schließlich Tabular+Bild+Text übergegangen wird.

5. Bedeutung und Fazit

Die Arbeit demonstriert, dass Prior-Data Fitted Networks (PFN) erfolgreich über den Bereich rein tabularer Daten hinaus erweitert werden können. MMPFN bietet einen skalierbaren und effektiven Rahmen für das Lernen aus heterogenen Daten, der die Vorteile von Foundation-Modellen (starke Priors, geringe Trainingskosten) mit der Fähigkeit zur Verarbeitung unstrukturierter Daten verbindet.

Die Einführung von MGM und CAP adressiert fundamentale Probleme der multimodalen Fusion (Informationsverlust und Aufmerksamkeits-Dominanz) und liefert einen neuen Standard für die Integration von Bildern und Texten in tabulare Deep-Learning-Architekturen. Dies ist besonders relevant für Anwendungen im Gesundheitswesen und im Marketing, wo multimodale Daten die Regel sind, aber oft nur begrenzte gelabelte Datensätze verfügbar sind. Der Quellcode ist öffentlich verfügbar, was die Reproduzierbarkeit und weitere Forschung fördert.

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

Das große Problem: Der einsame Tabellen-Experte

Die Lösung: MultiModalPFN (MMPFN)

Warum ist das so erfolgreich?

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: Multi-Modal Prior-data Fitted Network (MMPFN)

A. Per-Modalität-Encoder (Per-Modality Encoders)

B. Modality Projector (Der kritische Brückenschlag)

C. Training und Inferenz

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks

A Survey on 3D Gaussian Splatting