MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

Die Arbeit stellt MultiModalPFN vor, eine Erweiterung von TabPFN, die durch modalspezifische Encoder und innovative Projektoren tabellarische und nicht-tabellarische Daten (wie Bilder und Text) erfolgreich in einem einheitlichen Rahmen verarbeitet und dabei in medizinischen sowie allgemeinen Anwendungen State-of-the-Art-Methoden übertrifft.

Wall Kim, Chaeyoung Song, Hanul Kim

Veröffentlicht 2026-04-10
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der einsame Tabellen-Experte

Stell dir vor, du hast einen genialen Koch namens TabPFN. Dieser Koch ist ein Weltmeister darin, Gerichte aus reinen Zutatenlisten (Tabellendaten) zu kochen. Er kann aus einer Liste von Zahlen und Kategorien (z. B. „Alter: 30", „Haarfarbe: Braun") sofort vorhersagen, ob jemand ein bestimmtes Produkt kaufen wird oder ob eine medizinische Diagnose positiv ist. Er ist schnell, effizient und braucht wenig Zutaten, um ein Meisterwerk zu liefern.

Aber das Leben ist komplexer als eine reine Zutatenliste.

  • Ein Arzt hat nicht nur die Laborwerte (Tabelle), sondern auch ein Röntgenbild (Bild).
  • Ein Immobilienmakler hat nicht nur die Quadratmeterzahl (Tabelle), sondern auch Besitzerbewertungen (Text).

Der alte Koch TabPFN war jedoch verwirrt, als man ihm ein Bild oder einen Text gab. Er wusste nicht, wie er diese „fremden" Informationen in seine Zutatenliste integrieren sollte. Er ignorierte sie einfach oder versuchte es so schlecht, dass das Gericht schmeckte wie Matsch.

Die Lösung: MultiModalPFN (MMPFN)

Die Autoren dieses Papiers haben dem Koch einen multimodalen Assistenten an die Seite gestellt. Sie nennen das neue System MMPFN.

Stell dir MMPFN wie eine hochmoderne Küche mit einem Übersetzer-Team vor:

  1. Die Spezialisten (Encoder):

    • Für Bilder gibt es einen Bild-Experten (ein KI-Modell namens DINOv2), der das Röntgenbild anschaut und sagt: „Das sieht aus wie ein kleiner Tumor."
    • Für Text gibt es einen Text-Experten (ELECTRA), der die Kundenbewertungen liest und sagt: „Der Kunde ist sehr zufrieden."
    • Für die Tabelle bleibt der alte TabPFN-Experte.
  2. Der Übersetzer (Modality Projector):
    Das ist der wichtigste Teil der Erfindung. Die Bilder und Texte liegen in einer fremden Sprache vor, die TabPFN nicht versteht.

    • Der Übersetzer nimmt die Informationen des Bild- und Text-Experten und wandelt sie in eine neue, tabellenfreundliche Sprache um.
    • Das Problem: Früher haben solche Übersetzer versucht, das ganze Bild in ein einziges Wort zu packen (wie eine Zusammenfassung). Das war oft zu wenig Information – wie wenn man einen ganzen Film auf ein einziges Wort reduziert.
    • Die Lösung (MGM): Die neuen Autoren sagen: „Nein, wir brauchen mehr Wörter!" Sie nutzen eine Technik namens Multi-head Gated MLP (MGM). Stell dir das vor wie einen Übersetzer, der ein Bild nicht in ein Wort, sondern in 32 oder 64 kleine, präzise Wörter zerlegt. So bleibt viel mehr Detail erhalten.
  3. Der Regisseur (Cross-Attention Pooler):
    Jetzt haben wir plötzlich 32 Wörter für das Bild und vielleicht nur 5 Wörter für die Tabelle. Wenn der Koch (TabPFN) jetzt versucht, alles zu verarbeiten, schreit das Bild so laut (weil es so viele Wörter hat), dass die Tabelle gar nicht mehr gehört wird. Das nennt man Aufmerksamkeits-Ungleichgewicht.

    • Hier kommt der Cross-Attention Pooler (CAP) ins Spiel. Er ist wie ein Regisseur, der die 32 Bild-Wörter nimmt und sie zu 4 starken, kompakten Sätzen zusammenfasst.
    • Ergebnis: Die Tabelle und die Bilder haben jetzt eine faire Anzahl an „Wörtern" und können sich im Gespräch (der KI) gleichberechtigt anhören.

Warum ist das so erfolgreich?

Die Autoren haben dieses System an vielen Orten getestet, von Hautkrebs-Diagnosen bis hin zu Jobanzeigen.

  • Bessere Ergebnisse: MMPFN war fast immer besser als alle anderen Methoden. Es konnte die Informationen aus Bildern und Texten nutzen, um genauere Vorhersagen zu treffen als Systeme, die nur Tabellen oder nur Bilder betrachteten.
  • Geringe Datenmenge: Das Tolle an TabPFN ist, dass er schon viel gelernt hat (er wurde auf Millionen von synthetischen Tabellen trainiert). MMPFN nutzt dieses Vorwissen. Das bedeutet: Selbst wenn man nur wenige echte Patienten oder wenige Kundenbewertungen hat, funktioniert das System hervorragend. Es muss nicht von vorne anfangen lernen, sondern passt nur leicht an.
  • Fairness: Durch den cleveren „Regisseur" (CAP) wird verhindert, dass die Bilder die Tabelle unterdrücken oder umgekehrt. Alles wird fair gewichtet.

Zusammenfassung in einem Satz

MultiModalPFN ist wie ein genialer Koch, der endlich gelernt hat, nicht nur mit Zutatenlisten zu kochen, sondern auch Bilder und Texte in seine Rezepte zu integrieren – indem er sie in eine Sprache übersetzt, die er versteht, und dabei sicherstellt, dass keine Information verloren geht oder zu laut schreit.

Das macht es zu einem mächtigen Werkzeug für Bereiche wie Medizin, Marketing und Finanzen, wo Daten oft aus gemischten Quellen bestehen.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →