Conformalized Neural Networks for Federated Uncertainty Quantification under Dual Heterogeneity

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groot, wereldwijd ziekenhuisnetwerk hebt. Elke locatie (een "agent") heeft zijn eigen artsen, zijn eigen apparatuur en behandelt zijn eigen specifieke patiëntenpopulatie. Soms zijn de artsen superervaren met dure apparatuur (de "sterke agenten"), en soms werken ze in kleine dorpscentra met minder middelen (de "zwakke agenten").

Het probleem? Ze willen samenwerken om een slimme AI te bouwen die ziektes voorspelt, maar ze mogen nooit hun patiëntgegevens delen vanwege privacywetgeving. Dit noemen we Federated Learning.

De grote uitdaging is onzekerheid. Als de AI zegt: "Ik ben 95% zeker dat dit een tumor is," moet die 95% ook echt kloppen.

Bij een groot, goed uitgerust ziekenhuis is de AI misschien te zelfverzekerd (oververzekerd).
Bij een klein ziekenhuis met weinig data kan de AI juist te onzeker zijn of fouten maken zonder dat ze het merken (onderverzekerd).

Als je alleen naar het gemiddelde van het hele netwerk kijkt, lijkt alles perfect (bijvoorbeeld 95% zekerheid), maar dat verbergt het feit dat de kleine ziekenhuizen stiekem veel fouten maken. Dat is gevaarlijk.

De Oplossing: FedWQ-CP (De Slimme Kwaliteitscontroleur)

De auteurs van dit papier hebben een nieuwe methode bedacht genaamd FedWQ-CP. Laten we het uitleggen met een analogie:

1. Het Probleem: Verschillende "Taal"

Stel je voor dat elke arts een eigen taal spreekt om zijn zekerheid uit te drukken.

Arts A (Groot ziekenhuis) zegt: "Ik ben 90% zeker" (maar in zijn eigen taal betekent dat eigenlijk 99% zekerheid).
Arts B (Klein ziekenhuis) zegt: "Ik ben 90% zeker" (maar in zijn taal betekent dat misschien maar 80% zekerheid).

Als je deze getallen zomaar bij elkaar optelt (gemiddelde), krijg je een rommelig resultaat. De oude methoden probeerden dit op te lossen door alles naar één centraal punt te sturen, maar dat kostte te veel tijd en data, of het werkte niet goed als de artsen heel verschillend waren.

2. De Oplossing: De "Gewogen Stem"

FedWQ-CP werkt als een slimme moderator tijdens een vergadering:

Lokaal Kijken: Elke arts (agent) kijkt eerst alleen naar zijn eigen patiënten. Hij berekent een drempelwaarde (een getal dat aangeeft hoe zeker hij moet zijn om een diagnose te stellen). Dit is zijn "lokale zekerheid".
Alleen het Nodige Sturen: In plaats van alle patiëntgegevens te sturen, stuurt elke arts alleen twee kleine getallen naar de centrale server:
- Zijn berekende drempelwaarde.
- Het aantal patiënten waar hij naar heeft gekeken (de steekproefgrootte).
Slim Aggregeren (De Magie): De server doet nu iets slimme: hij maakt een gewogen gemiddelde.
- De arts met veel data (groot ziekenhuis) krijgt een zware stem.
- De arts met weinig data (klein ziekenhuis) krijgt een lichtere stem.
- Waarom? Omdat een arts met weinig data makkelijker een foutieve zekerheid berekent. Als je die stem te zwaar maakt, verpest je het resultaat voor iedereen.

3. Het Resultaat: Iedereen is veilig

Door deze methode te gebruiken, krijgt elke arts terug een globale drempelwaarde.

De grote ziekenhuizen krijgen een drempel die past bij hun sterke modellen.
De kleine ziekenhuizen krijgen een drempel die hen beschermt tegen hun eigen onzekerheid, zonder dat ze hun data hoeven te delen.

Het mooie resultaat:

Veiligheid: Geen enkel ziekenhuis (niet eens de kleine) heeft meer last van "stille fouten". Als de AI zegt dat het 95% zeker is, is het dat ook echt, voor iedereen.
Efficiëntie: De AI hoeft niet te twijelen als het niet nodig is. De "voorspellingsgroepen" (de lijst met mogelijke ziektes) blijven klein en scherp.
Snelheid: Het duurt slechts één ronde van communicatie. Geen eindeloze wachttijden of zware berekeningen.

Samenvattend in één zin

FedWQ-CP is als een slimme regisseur die zorgt dat een groep heel verschillende artsen samenwerken zonder hun geheimen te delen, waarbij hij rekening houdt met wie veel ervaring heeft en wie minder, zodat niemand een foutieve diagnose krijgt en iedereen evenveel vertrouwen heeft in het resultaat.

Each language version is independently generated for its own context, not a direct translation.

Titel: Geconformaliseerde Neuronale Netwerken voor Federatieve Kwantificatie van Onzekerheid onder Dubbele Heterogeniteit

1. Het Probleem: Onzekerheid in Federatief Leren (FL)

Federatief Leren (FL) staat voor grote uitdagingen bij het kwantificeren van onzekerheid (Uncertainty Quantification - UQ), vooral in scenario's met dubbele heterogeniteit:

Data-heterogeniteit: Agents (bijv. ziekenhuizen) hebben datasets met verschillende verdelingen (label-shift of covariaat-shift) en ongelijke datasetgroottes.
Model-heterogeniteit: Agents gebruiken verschillende architecturen (bijv. verschillende diepten van neurale netwerken) en hebben verschillende trainingsintensiteiten, wat leidt tot uiteenlopende voorspellingskracht.

De kernuitdaging: Bestaande methoden voor federatieve UQ behandelen deze heterogeniteiten vaak geïsoleerd of veronderstellen uitwisselbaarheid (exchangeability) die in FL niet geldt. Dit leidt tot twee risico's:

Stille lokale fouten: Een model kan op lokaal niveau systematisch onder-coverage hebben (onbetrouwbare voorspellingen), terwijl de globale gemiddelde coverage er goed uitziet.
Inefficiëntie: Bestaande methoden vereisen vaak meerdere communicatierondes, het delen van calibration-data, of zware optimalisatieprocedures, wat privacy en schaalbaarheid in gevaar brengt.

2. Methodologie: FedWQ-CP

De auteurs introduceren FedWQ-CP (Federated Weighted Quantile Conformal Prediction), een eenvoudig maar effectief framework dat de onzekerheid kalibreert in één enkele communicatieronde ("one-shot").

Het proces:

Lokale Calibratie:
- Elke agent $k$ traint zijn eigen predictor $f_k$ op een gedeelde trainingsset.
- Op de lokale calibratiegegevens ( $D_{cal}^k$ ) worden non-conformity scores berekend.
- Elke agent berekent een lokale conformale quantiel-drempel ( $\hat{q}_k$ ) gebaseerd op zijn eigen data en model. Dit normaliseert de onzekerheidsschaal van het specifieke model.
Communicatie:
- Agents sturen alleen twee waarden naar de server: de lokale drempel $\hat{q}_k$ en het aantal calibratie-stalen $n_k$ . Er worden geen ruwe data of modelparameters gedeeld.
Server-aggregatie (Gewogen Gemiddelde):
- De server berekent een globale drempel $\hat{q}$ door een gewogen gemiddelde van de lokale drempels te nemen, waarbij de gewichten evenredig zijn met de calibratie-datasetgrootte ( $n_k/N$ ):
  $\hat{q} = \sum_{k=1}^{M} \frac{n_k}{N} \hat{q}_k$
- Deze gewogen aggregatie compenseert voor agents met kleine datasets (die statistisch onbetrouwbaardere schattingen hebben) en zorgt voor een stabiele globale grens.
Voorspelling:
- De globale drempel $\hat{q}$ wordt teruggestuurd naar alle agents.
- Agents gebruiken deze drempel om voorspellingssets (voor classificatie) of intervallen (voor regressie) te construeren die voldoen aan de gewenste coverage ( $1-\alpha$ ).

Theoretische onderbouwing:
Het paper levert een theoretische analyse van de dekking (coverage). Hoewel het gemiddelde van quantielen niet exact gelijk is aan de quantiel van een mengverdeling (vanwege de niet-lineariteit), tonen de auteurs aan dat de aggregatie-error beperkt blijft onder redelijke aannames over de dichtheidsfuncties. De methode is ontworpen om robuust te zijn tegenover de shift tussen calibratie- en testdata.

3. Belangrijkste Bijdragen

Nieuw Framework: FedWQ-CP is de eerste methode die expliciet zowel data- als modelheterogeniteit aanpakt in een federatieve setting zonder iteratieve optimalisatie.
Efficiëntie en Privacy: De methode vereist slechts één communicatieronde en deelt slechts twee scalars per agent. Dit minimaliseert communicatiekosten en maximaliseert privacy.
Geen Aannames over Verdelingen: In tegenstelling tot eerdere methoden (zoals CPhet of DP-FedCP) vereist FedWQ-CP geen expliciete modellering van verdelingsverschillen (zoals density ratios of label shift parameters).
Dualiteit van Heterogeniteit: Het framework is specifiek ontworpen om de interactie tussen verschillende modelarchitecturen en ongelijke datasetgroottes te beheersen.

4. Resultaten

De auteurs hebben FedWQ-CP getest op zeven publieke datasets (inclusief MNIST, CIFAR-10 en diverse medische datasets zoals DermaMNIST en RetinaMNIST) voor zowel classificatie- als regressietaken. Ze vergeleken het met state-of-the-art baselines zoals SplitCP, FedCP-QQ, FCP, CPhet en DP-FedCP.

Coverage (Betrouwbaarheid):
- FedWQ-CP behoudt consistent een empirische coverage dicht bij het nominale niveau (bijv. 95%) op zowel agent-niveau als globaal niveau.
- Bestaande methoden vertoonden vaak systematische onder-coverage (vooral bij zwakke agents) of over-coverage. Bijvoorbeeld, DP-FedCP leed aan ernstige onder-coverage op zwakke agents.
Efficiency (Efficiëntie):
- FedWQ-CP produceert de kleinste voorspellingssets (voor classificatie) of kortste intervallen (voor regressie) terwijl de coverage behouden blijft.
- Dit betekent dat het model minder "onzekerheid" toont dan concurrenten zonder de betrouwbaarheid te verliezen.
Ablatie-studie:
- Een vergelijking met een niet-gewogen variant (FEDAVGQ-CP) toonde aan dat het weglaten van de datasetgrootte-gewichten leidt tot systematische onder-coverage bij agents met kleine datasets. Dit bevestigt de noodzaak van de gewogen aggregatie.

5. Betekenis en Impact

FedWQ-CP biedt een praktische en schaalbare oplossing voor het implementeren van betrouwbare AI in kritieke domeinen zoals de gezondheidszorg, waar federatief leren wordt gebruikt.

Veiligheid: Het voorkomt dat onderbemande of data-arme locaties (zoals kleine ziekenhuizen) onbetrouwbare voorspellingen krijgen die worden gemaskeerd door de prestaties van grotere locaties.
Toepasbaarheid: Omdat de methode geen specifieke verdelingsaannames vereist en werkt met diverse modelarchitecturen, is deze direct toepasbaar in real-world scenario's met grote variatie in hardware en datakwaliteit.
Schaalbaarheid: De "one-shot" aard maakt het zeer geschikt voor systemen met beperkte bandbreedte of strikte privacyvereisten.

Kortom, FedWQ-CP lost het fundamentele probleem op van het balanceren van lokale betrouwbaarheid en globale efficiëntie in heterogene federatieve systemen, zonder de privacy of communicatie-efficiëntie te offeren.

Conformalized Neural Networks for Federated Uncertainty Quantification under Dual Heterogeneity

De Oplossing: FedWQ-CP (De Slimme Kwaliteitscontroleur)

1. Het Probleem: Verschillende "Taal"

2. De Oplossing: De "Gewogen Stem"

3. Het Resultaat: Iedereen is veilig

Samenvattend in één zin

Titel: Geconformaliseerde Neuronale Netwerken voor Federatieve Kwantificatie van Onzekerheid onder Dubbele Heterogeniteit

1. Het Probleem: Onzekerheid in Federatief Leren (FL)

2. Methodologie: FedWQ-CP

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

Meer zoals dit

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks