MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, ervaren detective bent die gespecialiseerd is in het oplossen van misdrijven op basis van tabellen. Deze detective, die we TabPFN noemen, is een wonderkind. Hij kan met slechts een paar regels cijfers en feiten (zoals leeftijd, inkomen, of ziektegeschiedenis) al snel een zeer nauwkeurige voorspelling doen. Hij is zo goed, dat hij niet eens lang hoeft na te denken; hij "weet" het antwoord bijna direct.

Maar er is een probleem: deze detective is een beetje een eenzaat. Hij kan alleen kijken naar de cijfertabel. Als je hem echter een foto van een verdachte of een getuigenverklaring (tekst) geeft, kijkt hij er raar van op en weet hij niet wat hij ermee moet. In de echte wereld, bijvoorbeeld bij artsen of marketeers, hebben we echter vaak alle drie nodig: de cijfertabel, de foto, en de tekst.

Hier komt MultiModalPFN (MMPFN) om de hoek kijken. Dit is de nieuwe, super-geavanceerde versie van onze detective die nu ook foto's en teksten kan begrijpen.

Hier is hoe het werkt, vertaald in alledaagse termen:

1. De Vertalers (De "Modality Projector")

Stel je voor dat de detective (TabPFN) alleen Nederlands spreekt, maar de foto's en teksten zijn in het Chinees en Frans. Als je ze direct aan hem geeft, begrijpt hij niets.

MMPFN introduceert twee slimme vertalers:

De Multi-head Gated MLP (MGM): Dit is als een team van vertalers dat een lange, ingewikkelde tekst of een complexe foto niet in één zin samenvat (want dan gaat er veel informatie verloren). In plaats daarvan splitsen ze de informatie op in veel kleine, specifieke stukjes (tokens). Het is alsof ze een foto niet als "een hond" beschrijven, maar als "een vacht", "een staart", "een snuit" en "een houding", elk apart. Zo houden ze alle details behouden.
De Cross-Attention Pooler (CAP): Nu hebben we al die kleine stukjes informatie, maar dat zijn er te veel voor de detective om in één keer te verwerken. De CAP is als een slimme samenvatter. Hij pakt al die kleine stukjes, kijkt welke het belangrijkst zijn, en maakt er een compacte, gebalanceerde set van. Hij zorgt ervoor dat de detective niet overweldigd wordt door te veel informatie over de foto, waardoor hij de cijfertabel (zijn specialiteit) vergeet.

2. Het Evenwicht (Het "Aandacht"-probleem)

Een groot probleem bij het combineren van verschillende soorten data is het aandacht-evenwicht.
Stel je voor dat je een gesprek voert met twee mensen:

Persoon A (de cijfertabel) zegt één zin.
Persoon B (de foto) schreeuwt 1000 woorden tegelijk.

In een normaal gesprek zou Persoon B de hele aandacht opeisen, en zou Persoon A niet gehoord worden. In de wereld van AI gebeurt dit ook: als er te veel "woorden" (tokens) van de foto zijn, negeert het model de cijfertabel.

De CAP (de samenvatter) lost dit op. Hij zorgt dat Persoon B (de foto) net zo veel "woorden" heeft als Persoon A (de cijfertabel). Zo krijgt iedereen een eerlijke kans om gehoord te worden, en kan de detective alle informatie combineren tot een perfect oordeel.

3. Waarom is dit zo cool?

Minder data nodig: Omdat de detective (TabPFN) al zo'n enorme ervaring heeft met tabellen (hij is getraind op miljoenen synthetische tabellen), heeft hij niet duizenden echte voorbeelden nodig om te leren. Hij kan al snel leren van een paar foto's en teksten. Dit is goud waard in gebieden zoals de gezondheidszorg, waar je niet altijd duizenden patiëntenfoto's hebt.
Schaalbaar: Je kunt steeds meer soorten informatie toevoegen. Eerst alleen cijfers, dan cijfers + foto's, dan cijfers + foto's + tekst. Het systeem wordt steeds slimmer naarmate je meer informatie toevoegt, zonder dat het langzamer wordt of crasht.
Beter dan de rest: In tests met medische data (zoals huidkanker detectie) en algemene data (zoals Airbnb-prijzen of salarissen) bleek MMPFN beter te presteren dan alle andere geavanceerde methodes die er nu zijn.

Samenvattend

MultiModalPFN is als het geven van een bril aan een briljante, maar eenzijdige detective.

Hij neemt de cijfertabel (zijn oude kracht).
Hij gebruikt vertalers om foto's en teksten om te zetten in iets wat hij begrijpt.
Hij zorgt voor eerlijke verdeling van de aandacht, zodat geen enkel stukje informatie overheerst.

Het resultaat? Een systeem dat complexe, gemengde data (cijfers, foto's, tekst) samen kan zien en daaruit betere conclusies trekt dan ooit tevoren, zelfs als er niet heel veel data beschikbaar is. Het is een enorme stap voorwaarts voor slimme AI in de echte wereld.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Tabulaire data (gestructureerde data) is wijdverbreid in domeinen zoals gezondheidszorg, financiën en marketing. Traditioneel worden hier voor Gradient-Boosted Decision Trees (zoals XGBoost, CatBoost) gebruikt, maar recente diepe leermodellen zoals TabPFN hebben laten zien dat ze superieure prestaties kunnen leveren, vooral op kleine tot middelgrote datasets, door supervisie te behandelen als "amortized Bayesian inference".

Echter, TabPFN heeft een belangrijke beperking: het is getraind op synthetische tabulaire data en kan geen heterogene modaliteiten (zoals afbeeldingen en tekst) verwerken. In veel praktische toepassingen (bijv. medische diagnose met testresultaten én röntgenfoto's, of marketing met verkoopcijfers én productreviews) is het essentieel om gestructureerde data te combineren met ongestructureerde data. Bestaande methoden voor multimodale tabulaire data lijden vaak onder:

Beperkte prestaties bij data-schaarste.
Langzame trainingstijden.
Het "attention imbalance"-probleem: wanneer een modality (bijv. tekst) veel meer tokens genereert dan een andere (bijv. tabulaire rijen), domineert deze de aandacht (attention) van het model, waardoor de andere modaliteit wordt genegeerd.
Overmatige compressie van niet-tabulaire informatie (bijv. het gebruik van slechts één [CLS] token voor een hele afbeelding).

Methodologie: MultiModalPFN (MMPFN)

De auteurs stellen MMPFN voor, een uitbreiding van TabPFN die tabulaire, beeld- en tekstmodaliteiten op een uniforme manier verwerkt. De architectuur bestaat uit drie hoofdblokken:

Per-Modaliteit Encoders:
- Tabulaire data: Gebruikt de bestaande, bevroren TabPFN v2 encoder.
- Beeld: Gebruikt de DINOv2 ViT-B/14 backbone; de [CLS] token fungeert als globale beeldrepresentatie.
- Tekst: Gebruikt een op ELECTRA gebaseerde encoder; de [CLS] embedding fungeert als tekstrepresentatie.
Modality Projector (De kerninnovatie):
Deze laag brengt de niet-tabulaire embeddings (beeld/tekst) in lijn met de tabulaire embedding-ruimte. Om de bovengenoemde problemen op te lossen, bestaat deze projector uit twee specifieke componenten:
- Multi-head Gated MLP (MGM): In plaats van één [CLS] token te gebruiken, splitst MGM de embedding op in $N$ parallelle $d$ -dimensionale projecties. Een Gated Linear Unit (GLU) reguleert de bijdrage van elke "head". Dit lost het probleem van overcompressie op en zorgt voor een rijkere, gediversifieerde representatie van de niet-tabulaire data.
- Cross-Attention Pooler (CAP): Omdat MGM veel tokens genereert (wat kan leiden tot attention imbalance), gebruikt CAP $K$ leerbare query-vectoren om de $N$ MGM-tokens te "poolen" naar een compacte set van $K$ tokens. Dit garandeert dat de verhouding tussen tabulaire en niet-tabulaire tokens in balans blijft, zodat de TabPFN-backbone beide modaliteiten effectief kan integreren zonder dat één modaliteit de aandacht domineert.
TabPFN Backbone & Decoder:
De gegenereerde multimodale embeddings (nu allemaal in de tabulaire token-ruimte) worden gevoed aan de TabPFN-backbone. Omdat TabPFN is voorgeïmplementeerd op synthetische data, worden alleen de projector, de backbone (voor fine-tuning) en de decoder getraind, terwijl de encoders bevroren blijven.

Kernbijdragen

Eerste Unified Framework: MMPFN is het eerste framework dat TabPFN uitbreidt naar heterogene inputs (tabulaar + afbeelding/tekst) via een uniforme pad.
Identificatie en Oplossing van Falingsmodi: De auteurs identificeren twee kritieke problemen in multimodale learning:
- Overcompressed embeddings: Oplossing via MGM (uitbreiding naar meerdere tokens).
- Attention imbalance door token-aantallen: Oplossing via CAP (compressie naar een gebalanceerde set tokens).
Efficiëntie en Schaalbaarheid: Het model maakt gebruik van vooringesloten foundation models en vereist slechts lichte fine-tuning, wat leidt tot snelle training en goede prestaties zelfs bij weinig data.

Resultaten

De auteurs evalueren MMPFN op diverse benchmarks, waaronder medische datasets (PAD-UFES-20, CBIS-DDSM) en algemene datasets (Airbnb, PetFinder, Salary, Cloth).

Superieure Prestaties: MMPFN presteert consistent beter dan state-of-the-art methoden zoals CatBoost, AutoGluon, TIME, TIP en MMCL. Het behaalt de beste gemiddelde rangschikking op bijna alle datasets.
Effectiviteit van MGM en CAP: Ablatie-studies tonen aan dat MGM beter presteert dan single-head MLP's of MoE (Mixture of Experts), en dat CAP cruciaal is om attention imbalance te voorkomen. Zonder CAP daalt de prestatie wanneer het aantal niet-tabulaire tokens toeneemt.
Robuustheid bij Data-Schaarste: In scenario's met slechts 10% van de trainingsdata presteert MMPFN aanzienlijk beter dan concurrenten (zoals TIP), dankzij de sterke priors van TabPFN.
Schaalbaarheid: De prestaties van MMPFN verbeteren monotoon naarmate meer modaliteiten worden toegevoegd (tabulaar $\to$ tabulaar + tekst $\to$ tabulaar + beeld $\to$ alle drie), wat aantoont dat het model complementaire signalen effectief benut.
Analyse van Attention: Experimenten bevestigen dat zonder CAP de modaliteit met meer tokens de "attention budget" domineert. CAP corrigeert dit door een gebalanceerde token-set te creëren.

Betekenis en Impact

Dit paper is significant omdat het de kloof overbrugt tussen krachtige foundation modellen voor tabulaire data en de realiteit van multimodale toepassingen.

Praktische Toepasbaarheid: Het biedt een schaalbaar en effectief kader voor sectoren zoals gezondheidszorg en marketing, waar data vaak uit een mix van cijfers, foto's en tekst bestaat.
Efficiëntie: Het demonstreert dat het niet nodig is om enorme multimodale modellen van scratch te trainen; het fine-tunen van bestaande foundation modellen met slimme projectors (MGM/CAP) volstaat voor state-of-the-art resultaten.
Toekomstperspectief: Het werk legt de basis voor toekomstige "Multimodal Foundation Models" die gestructureerde en ongestructureerde data naadloos kunnen integreren, zelfs in data-scarce omgevingen.

Kortom, MMPFN bewijst dat het uitbreiden van prior-data fitted networks naar multimodale settings een veelbelovende route is voor het verbeteren van machine learning op heterogene datasets.

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

1. De Vertalers (De "Modality Projector")

2. Het Evenwicht (Het "Aandacht"-probleem)

3. Waarom is dit zo cool?

Samenvattend

Probleemstelling

Methodologie: MultiModalPFN (MMPFN)

Kernbijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks

A Survey on 3D Gaussian Splatting