Co-LoRA: Collaborative Model Personalization on Heterogeneous Multi-Modal Clients

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme, slimme robot hebt die alles kan doen: van koken tot wiskunde maken. Maar deze robot is zo groot dat hij niet in ieders huis past, en je wilt niet dat hij je persoonlijke foto's of berichten ziet om te leren.

Dit is precies het probleem waar Federated Learning (Federatief Leren) voor is bedacht. In plaats van dat iedereen hun gegevens naar één centrale computer stuurt, blijft de data bij de gebruiker. De robot leert lokaal en stuurt alleen "leerstukjes" (wiskundige updates) terug naar de hoofdbasis.

Maar hier zit een addertje onder het gras, zoals beschreven in dit paper:

Verschillende apparaten: Sommige mensen hebben een dure, krachtige telefoon (een grote robot), anderen een goedkope (een kleine robot). Ze hebben verschillende "hersenen".
Verschillende taken: De ene gebruiker wil de robot leren om kleding te herkennen, de andere om recepten te begrijpen. Ze leren dus totaal verschillende dingen.

Als je deze verschillende robots nu gewoon hun antwoorden laat mixen, krijg je een rommel. De robot die kleding leert, verwardt de robot die recepten leert. Het is alsof je een kok probeert te leren zwemmen door hem te laten kijken naar een zwemmer; beiden worden er slechter van.

De auteurs van dit paper, FedMosaic, hebben een slimme oplossing bedacht die we kunnen vergelijken met een puzzel van mozaïektegels.

De twee slimme trucjes van FedMosaic

1. De "Slimme Matchmaker" (RELA)

Stel je voor dat je een grote groep mensen hebt die allemaal verschillende talen spreken en verschillende onderwerpen leren. Als je ze allemaal in één kamer zet en laat praten, is het chaos.

Deze methode, genaamd RELA, werkt als een slimme matchmaker. Hij kijkt niet naar wie je bent, maar naar wat je aan het leren bent.

Als jij leert over "koken" en ik ook, dan sluit hij onze kennis aan.
Als jij leert over "koken" en ik over "wiskunde", dan zegt hij: "Jullie hebben elkaar niets te bieden, laten we niet storend mixen."

Hij doet dit door te kijken naar de "stijl" van de vragen die de robots beantwoorden (de gradiënten). Zo zorgt hij ervoor dat alleen robots die vergelijkbare taken hebben, elkaars kennis delen. Dit voorkomt dat de kennis van de ene taak de andere taak "verpest".

2. De "Universele Tussenstukjes" (Co-LoRA)

Nu het probleem van de verschillende apparaten: een grote robot (bijv. 3 miljard parameters) en een kleine robot (1 miljard parameters) hebben verschillende grootte hersenen. Je kunt hun hersenen niet zomaar samenvoegen, net zoals je geen grote auto-remmen op een fiets kunt zetten.

De auteurs hebben Co-LoRA bedacht. Stel je voor dat elke robot een eigen grootte heeft, maar dat ze allemaal een kleine, universele tas bij zich dragen.

Deze tas is klein en past bij iedereen, ongeacht hoe groot de robot is.
In deze tas zitten de "essentiële kennisstukjes" die iedereen kan delen.
De grote robots en de kleine robots vullen hun eigen grote hersenen aan met wat ze uit deze kleine, gemeenschappelijke tas halen.

Dit betekent dat een kleine robot kennis kan leren van een grote robot, en andersom, zonder dat ze hun eigen formaat hoeven aan te passen. Het is alsof ze allemaal een vertaler hebben die de boodschap in een formaat omzet dat iedereen begrijpt.

De nieuwe "Testbaan" (DRAKE)

Om te bewijzen dat dit werkt, hebben de auteurs een nieuwe testbaan bedacht, genaamd DRAKE.
Vroeger testten ze dit soort systemen met simpele, saaie data (alleen cijfers herkennen). DRAKE is echter een multimodale avonturenparcours.

Het bevat 40 verschillende taken: van het herkennen van kledingstijlen tot het begrijpen van grappige plaatjes en het beantwoorden van vragen over complexe afbeeldingen.
Het is dynamisch: de taken veranderen na verloop van tijd, net als in het echte leven.

Het resultaat? FedMosaic presteert veel beter dan alle andere methoden. Het leert sneller, maakt minder fouten en kan zich veel beter aanpassen aan nieuwe situaties, zelfs als de apparaten en taken heel verschillend zijn.

Samenvatting in één zin

FedMosaic is als een slimme coördinator die zorgt dat een groep verschillende robots (van klein tot groot) die verschillende dingen leren, toch van elkaar kunnen leren zonder elkaar in de weg te zitten, door alleen relevante kennis te delen via een universeel "tussenstukje".

Dit maakt het mogelijk om in de toekomst persoonlijke AI-assistenten te hebben die echt begrijpen wat jij nodig hebt, zonder dat je je privacy hoeft op te geven of dat je een supercomputer nodig hebt om ze te laten werken.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "CO-LORA: COLLABORATIVE MODEL PERSONALIZATION ON HETEROGENEOUS MULTI-MODAL CLIENTS", gepubliceerd bij ICLR 2026.

Probleemstelling

De opkomst van Agentic AI en persoonlijke toepassingen vereist dat modellen worden aangepast aan specifieke gebruikersvoorkeuren. Personalized Federated Learning (PFL) biedt een oplossing om modellen te personaliseren zonder ruwe data te delen, maar bestaande methoden hebben twee fundamentele beperkingen die ze ongeschikt maken voor realistische scenario's:

Data Heterogeniteit: Bestaande benchmarks simuleren heterogeniteit vaak door een enkel dataset in niet-i.i.d. (niet-onafhankelijk en identiek verdeeld) delen te splitsen. In de realiteit hebben clients echter vaak totaal verschillende taken (bijv. visuele vraag-antwoord vs. visuele redenering) en ondergaan ze tijdsafhankelijke verdelingsverschuivingen (distribution shifts).
Model Heterogeniteit: Clients hebben vaak verschillende rekenkracht en gebruiken daarom modellen van verschillende families (bijv. Llama vs. Qwen) en schalen (bijv. 1B vs. 3B parameters). Bestaande PFL-methoden kunnen de gewichten van deze modellen niet direct aggregeren vanwege architecturale mismatches (verschillende afmetingen en dieptes).

Methodologie: FedMosaic

De auteurs stellen FedMosaic voor, een framework dat beide vormen van heterogeniteit tegelijkertijd aanpakt. Het bestaat uit twee kerncomponenten:

1. RELA (RELevance-guided Aggregation) – Voor Data Heterogeniteit

Om interferentie te voorkomen bij het samenvoegen van modellen die op verschillende taken zijn getraind, introduceert RELA een strategie voor selectieve kennisdeling.

Client-wise Gradients: In plaats van ruwe data te delen, berekent elke client een gradient op een kleine, bevroren pre-trained model ( $W_s$ ) op basis van hun lokale data. Dit vermijdt privacyproblemen en zorgt voor een representatieve maatstaf van de taak.
Decayed Gradient (EMA): Om vergeten van oude taken en verdelingsverschuivingen te compenseren, wordt een Exponential Moving Average (EMA) van de gradients gebruikt.
Sanitization: Voor privacy worden deze gradients "gesanitized" door ruis toe te voegen en compressie toe te passen (random subsampling).
Gewogen Aggregatie: De server bouwt een client-relevantiematrix op basis van de cosinus-ähnheid tussen de gesaniteerde gradients. Elk client ontvangt een op maat gemaakt globaal model, waarbij bijdragen van clients met vergelijkbare taken zwaarder wegen dan die van irrelevante taken.

2. Co-LoRA (Collaborative-LoRA) – Voor Model Heterogeniteit

Om kennis te delen tussen modellen met verschillende architecturen (verschillende verborgen dimensies $d_I, d_O$ en dieptes), wordt een dimensie-invariante module voorgesteld.

Architectuur: Co-LoRA voegt twee deelbare modules toe aan de standaard LoRA-structuur: $P \in \mathbb{R}^{r \times r}$ en $Q \in \mathbb{R}^r$ . De grootte hiervan hangt alleen af van de lage rang $r$ , niet van de modelgrootte.
Block-wise Aggregatie: Omdat heterogene modellen verschillende dieptes hebben, worden de modellen opgesplitst in blokken op basis van relatieve diepte (geanalyseerd via CKA-similariteit). Co-LoRA-modules worden op de laatste laag van elk blok geplaatst.
Weight Alignment: Om de $P$ $P$ en $Q$ $Q$ modules te kunnen aggregeren, moeten de bijbehorende $A$ $A$ en $B$ $B$ matrices van LoRA worden uitgelijnd:
- A-matrices: Worden uitgelijnd via L2-verlies op een publieke dataset, waarbij het kleinere model als "pivot" fungeert.
- B-matrices: Worden uitgelijnd via Canonical Correlation Analysis (CCA) om de correlatie tussen de output-ruimtes te maximaliseren.
- Orthogonaliteit: Er wordt een regularisatie toegepast om de orthogonaliteit van $A$ en $B$ te behouden, wat de expressieve capaciteit maximaliseert.
Training: Tijdens lokale training worden de uitgelijnde $A$ en $B$ bevroren; alleen de shareable $P$ en $Q$ worden bijgewerkt. Een learnable gating parameter ( $\beta$ ) balanceert de output van het lokale en het globale model.

DRAKE Benchmark

Om de realiteit beter na te bootsen, stellen de auteurs DRAKE voor, de eerste multimodale FL-benchmark die:

40 verschillende taken omvat (Visual Relation, Multi-modal Reasoning, VQA).
Tijdsafhankelijke verdelingsverschuivingen simuleert (clients leren sequentieel nieuwe taken).
Ongeziene taken bevat om generalisatie te testen.
Multi-image inputs ondersteunt.

Resultaten

Uitgebreide experimenten tonen aan dat FedMosaic de state-of-the-art (SOTA) PFL-methoden (zoals DITTO, FedDAT, PerAda) significant overtreft:

Prestaties: FedMosaic behaalt hogere nauwkeurigheid op zowel de eigen taken van de client ('Self') als op taken van andere clients ('Others'), wat aangeeft dat het zowel personalisatie als generalisatie verbetert.
Heterogeniteit: Het werkt effectief over verschillende modelgroottes (1B vs 3B) en families (Llama vs. Qwen).
Snelheid: Modellen geïnitieerd met FedMosaic passen zich sneller aan aan nieuwe, ongeziene taken, wat cruciaal is voor continue personalisatie.
Efficiëntie: Ondanks de extra complexiteit is de reken- en communicatiekosten slechts marginaal hoger dan standaard SFT (Supervised Fine-Tuning), voornamelijk dankzij gradient compressie en het bevriezen van zware parameters.

Bijdrage en Significantie

De belangrijkste bijdragen van dit werk zijn:

FedMosaic: Een nieuw framework dat zowel data- als modelheterogeniteit in PFL oplost, wat essentieel is voor de schaalbare inzet van AI op diverse randapparaten.
Co-LoRA: Een innovatieve, dimensie-invariante module die kennisdeling tussen volledig verschillende neurale netwerken mogelijk maakt zonder dataverlies of complexe distillatie.
RELA: Een strategie die taakrelevantie meet via gradients om schadelijke interferentie tijdens aggregatie te minimaliseren.
DRAKE: Een robuust en realistisch benchmark dat de huidige beperkingen van FL-evaluatie (vaak gebaseerd op simpele dataset-splits) doorbreekt.

Conclusie: Dit paper zet een nieuwe standaard voor Personalized Federated Learning in realistische, heterogene omgevingen. Het biedt een schaalbare oplossing voor het personaliseren van grote multimodale modellen op apparaten met beperkte middelen, terwijl het privacy bewaakt en generalisatie naar nieuwe taken verbetert.

Co-LoRA: Collaborative Model Personalization on Heterogeneous Multi-Modal Clients

De twee slimme trucjes van FedMosaic

1. De "Slimme Matchmaker" (RELA)

2. De "Universele Tussenstukjes" (Co-LoRA)

De nieuwe "Testbaan" (DRAKE)

Samenvatting in één zin

Probleemstelling

Methodologie: FedMosaic

1. RELA (RELevance-guided Aggregation) – Voor Data Heterogeniteit

2. Co-LoRA (Collaborative-LoRA) – Voor Model Heterogeniteit

DRAKE Benchmark

Resultaten

Bijdrage en Significantie

Meer zoals dit

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models