Replacing Parameters with Preferences: Federated Alignment of Heterogeneous Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een superslimme, visuele AI wilt bouwen die foto's kan begrijpen en er vragen over kan beantwoorden. Dit soort modellen (VLMs) zijn geweldig voor dingen zoals medische diagnose of financiële analyse. Maar er is een groot probleem: de data die ze nodig hebben (bijvoorbeeld patiëntfoto's of bankafschriften) is extreem gevoelig. Wetten zeggen dat deze data niet naar één centrale plek mag, zoals een grote server van een techbedrijf.

Het oude probleem: De "Grote Vergaderzaal"
Vroeger probeerden mensen dit op te lossen met "Federated Learning". De idee was: laten we de modellen naar elkaar sturen in plaats van de data.

Het nadeel: Stel je voor dat 100 mensen in een vergaderzaal zitten. Iedereen heeft een eigen idee (een model). Ze moeten allemaal hun hele notitieboek (de parameters) naar elkaar sturen om één groot, gemiddeld notitieboek te maken.
- Dit is traag (veel data verkeer).
- Het is onveilig (je kunt soms de originele foto's terugrekenen uit de notities).
- Het werkt slecht als de mensen heel verschillend zijn. Een arts die foto's van longen bekijkt, heeft een heel ander "denkpatroon" nodig dan iemand die tekst in foto's zoekt (OCR). Als je hun notities zomaar mengt, krijg je een rommelig gemiddelde dat nergens goed in is.

De nieuwe oplossing: "MoR" (Mix van Beloningen)
De auteurs van dit paper (Lu en collega's) zeggen: "Waarom sturen we niet onze notities naar elkaar, maar gewoon onze meningen over wat goed is?"

Ze noemen hun methode MoR (Mixture-of-Rewards). Hier is hoe het werkt, vertaald naar een simpel verhaal:

1. De Lokale Experts (De Klanten)

Stel je een ziekenhuis, een bank en een bibliotheek voor.

Het ziekenhuis heeft een eigen "jurylid" (een beloningsmodel) dat alleen kijkt naar medische nauwkeurigheid.
De bank heeft een jurylid dat kijkt naar financiële logica.
De bibliotheek heeft een jurylid dat kijkt naar leesbaarheid.
Elke instelling houdt hun eigen data (de foto's) veilig bij zich. Ze trainen alleen hun eigen jurylid op hun eigen data. Ze sturen geen foto's naar buiten.

2. De Slimme Portier (De Router)

Nu hebben we een centraal punt nodig dat weet welk jurylid we moeten raadplegen voor een specifieke vraag.

Stel je een slimme portier voor in een groot hotel. Als er een medische vraag komt, stuurt hij die naar het medische jurylid. Als er een vraag komt over tekst in een foto, stuurt hij die naar het bibliotheek-jurylid.
Deze "portier" (de router) wordt getraind door de instellingen samen, maar hij leert alleen hoe hij moet kiezen. Hij leert niet de data zelf. Hij is lichtgewicht en snel.

3. Het Spel: Wie heeft gelijk?

Wanneer het centrale AI-model een antwoord probeert te geven, gebeurt het volgende:

Het model maakt een antwoord.
De slimme portier kijkt naar de vraag en zegt: "Ah, dit is een medische vraag! Laten we het medische jurylid vragen of dit goed is."
Het medische jurylid geeft een score (een beloning).
Het centrale model leert van die score en wordt beter.

Waarom is dit zo slim?

Privacy: Niemand ziet de foto's van de patiënten of de bankrekeningen. Alleen de "meningen" (scores) worden gedeeld.
Schaalbaarheid: Je hoeft geen enorme notitieboeken te versturen. Je stuurt alleen een klein signaal: "Dit antwoord is goed voor deze specifieke vraag."
Diversiteit: Het werkt perfect als de instellingen heel verschillend zijn. De portier zorgt ervoor dat de juiste expert de juiste vraag beantwoordt, zonder dat de zwakke experts de sterke experts verpesten (een probleem dat optreedt bij het zomaar middelen van alles).

De Analogie: Het Restaurant

Stel je een restaurant voor met één hoofdkok (het centrale model) en drie lokale experts in de buurt: een vis-specialist, een vlees-specialist en een zoetwaren-specialist.

De oude manier: De hoofdkok moet elke dag naar elke specialist gaan, hun hele kookboek kopiëren en proberen alles in één groot boek te plakken. Dat is veel werk en de boeken zijn vaak te groot om te vervoeren.
De MoR-methode: De hoofdkok blijft in zijn keuken. Als er een visgerecht besteld wordt, belt hij de vis-specialist: "Is dit visgerecht goed?" De specialist zegt: "Ja, 10/10!" De hoofdkok past zijn recept aan. Als er een taart besteld wordt, belt hij de zoetwaren-specialist.
- De hoofdkok wordt zo een "meesterkok" die van alles kan, omdat hij de juiste expert raadpleegt op het juiste moment.
- De specialisten hoeven hun recepten (data) niet te delen, ze geven alleen een oordeel.

Conclusie
Dit paper introduceert een manier om AI's samen te laten werken zonder dat ze hun geheimen (data) hoeven te delen. In plaats van te proberen iedereen gelijk te trekken, gebruiken ze een slimme "router" om de juiste mening van de juiste persoon te halen. Dit maakt het mogelijk om superkrachtige AI's te bouwen voor gevoelige gebieden zoals de zorg en financiën, terwijl de privacy van iedereen gewaarborgd blijft.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Visuele-taalmodellen (VLMs) hebben groot potentieel in privacygevoelige domeinen zoals gezondheidszorg en financiën. Echter, strenge regelgeving voor gegevensdeling maakt centraal trainen vaak onmogelijk. Federatief Leren (FL) biedt een oplossing door decentraal trainen zonder ruwe data te delen, maar de huidige FL-paradigma's hebben ernstige beperkingen:

Privacyrisico's: Het uitwisselen van modelparameters kan leiden tot data-reconstructie via aanvalsmethoden zoals gradient inversion.
Heterogeniteit: Cliënten verschillen vaak in rekenkracht, modelarchitectuur en toepassingsdoelen. Het aggregeren van parameters op modelniveau is hierdoor kwetsbaar en inefficiënt.
Voorkeursheterogeniteit: Cliënten hebben verschillende evaluatiecriteria (bijv. één cliënt prioriteert medische nauwkeurigheid, een ander fijne visuele details). Een enkel monolithisch beloningssysteem (reward model) kan deze diverse voorkeuren niet goed vangen en leidt tot conflicterende supervisiessignalen.

De auteurs pleiten voor een verschuiving: in plaats van het delen van parameters (de huidige staat van FL), moet de toekomst liggen in het delen van voorkeuren (rewards).

Methodologie: MoR (Mixture-of-Rewards)

Het paper introduceert MoR, een federatief uitlijningsframework dat gebaseerd is op GRPO (Group Relative Policy Optimization) en een Mixture-of-Rewards mechanisme. Het framework bestaat uit drie hoofdfasen:

Decentrale Beloningsmodeltraining:
- Elke cliënt traint lokaal een eigen beloningsmodel ( $R_k$ ) op zijn privé-preferentiedata.
- Dit model leert de specifieke evaluatiecriteria van die cliënt zonder dat ruwe data het lokale domein verlaat.
- De beloningsmodellen kunnen verschillende architecturen hebben (heterogeen).
Federatief Routeren (Routing Network):
- In plaats van de zware beloningsmodellen te aggregeren, wordt een lichtgewicht router ( $g_\phi$ ) centraal getraind via FL.
- Deze router leert dynamisch te bepalen welk lokaal beloningsmodel het meest geschikt is voor een specifieke invoer (beeld + tekst).
- De router fungeert als een "expert-systeem" dat signalen van diverse cliënten combineert via een Mixture-of-Experts (MoE) benadering.
- De router wordt getraind om de voorkeuren van verschillende cliënten te reconciliëren en conflicten op te lossen.
GRPO met Online Router-updates:
- Tijdens de uitlijning van het basis-VLM gebruikt de server de router om een gemengde beloningsscore ( $R_{mix}$ ) te genereren voor gegenereerde antwoorden.
- Online Update: Omdat de policy ( $\pi_\theta$ ) evolueert tijdens het trainen, verandert de verdeling van de gegenereerde antwoorden. Om dit op te vangen, wordt de router continu bijgewerkt tijdens de GRPO-training.
- Dit wordt gemodelleerd als een contextueel bandit-probleem waarbij Neural Thompson Sampling wordt gebruikt om de router online te optimaliseren en een balans te vinden tussen exploratie en exploitatie van de beste beloningsmodellen.

Belangrijkste Bijdragen

Paradigmaverschuiving: De auteurs introduceren het concept dat het delen van voorkeuren (rewards) in plaats van parameters een schaalbaarder en privacy-bewuster toekomst voor federatief VLM-training biedt.
MoR Framework: Een nieuw framework dat heterogene beloningsmodellen integreert via een routerend mechanisme, waardoor cliënten met verschillende architecturen en doelen kunnen samenwerken.
Dynamische Adaptatie: De implementatie van online router-updates tijdens de RL-fase (via Neural Thompson Sampling) lost het probleem op van de mismatch tussen de trainingsverdeling van de router en de live policy.
Privacy en Efficiëntie: Het framework elimineert de noodzaak om ruwe data of zware modelparameters te delen, en verlaagt de communicatie-overhead door alleen de lichte router te synchroniseren.

Resultaten

Experiments zijn uitgevoerd op drie publieke VQA-benchmarks (Medisch, OCR-achtig, en Detailbeschrijving) met zowel homogene als heterogene beloningsmodellen.

Superieure Generalisatie: MoR presteert consequent beter dan bestaande methoden (zoals FedAvg, Random Selection, en PluralLLM) op alle domeinen.
Omgaan met Heterogeniteit: In heterogene settings (waarbij sommige cliënten zwakkere modellen hebben) voorkomt MoR de "bucket effect" (dat een zwak model het gemiddelde trekt). De router filtert ruis uit zwakke modellen en combineert de sterke punten van capabele modellen.
- Voorbeeld: In het Medische domein behaalde MoR een score van 8.25, terwijl het beste individuele model slechts 7.52 haalde.
Robuustheid: MoR toont consistente prestaties in termen van "Visual Faithfulness" (weinig hallucinaties) en "Helpfulness", zelfs wanneer individuele modellen sterk variëren per domein.
Efficiëntie: De methode heeft een constante computatiecomplexiteit ( $O(1)$ ) ten opzichte van het aantal cliënten, in tegenstelling tot parameter-aggregatie methoden die lineair schalen ( $O(K)$ ).

Significantie

Dit werk biedt een schaalbare oplossing voor de privacy-bewuste uitlijning van heterogene Vision-Language Modellen. Het is van groot belang voor sectoren waar data-soevereiniteit cruciaal is (zoals medische diagnostiek en financiële fraudeopsporing), omdat het:

Toegang biedt tot waardevolle, verspreide data zonder privacy te schenden.
Democratiseert AI-training door instellingen met verschillende rekenresources en modelarchitecturen in staat te stellen bij te dragen aan een gezamenlijk, krachtig model.
Een nieuwe richting aangeeft voor federatief leren: weg van parameter-uitwisseling naar voorkeurs-uitwisseling, wat beter past bij de realiteit van diverse en privacygevoelige toepassingen.

Replacing Parameters with Preferences: Federated Alignment of Heterogeneous Vision-Language Models

1. De Lokale Experts (De Klanten)

2. De Slimme Portier (De Router)

3. Het Spel: Wie heeft gelijk?

De Analogie: Het Restaurant

Probleemstelling

Methodologie: MoR (Mixture-of-Rewards)

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation