Replacing Parameters with Preferences: Federated Alignment of Heterogeneous Vision-Language Models

Dit paper introduceert MoR, een federatief uitlijningskader dat heterogene Vision-Language-modellen schaalbaar en privacy-bewust optimaliseert door lokale voorkeursmodellen te combineren via een mix van beloningen in plaats van modelparameters.

Shule Lu, Yujing Wang, Hainan Zhang, Xiaoshan Yang, Hongwei Zheng, Yongxin Tong, Changsheng Xu, Zhiming Zheng

Gepubliceerd 2026-03-06
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een superslimme, visuele AI wilt bouwen die foto's kan begrijpen en er vragen over kan beantwoorden. Dit soort modellen (VLMs) zijn geweldig voor dingen zoals medische diagnose of financiële analyse. Maar er is een groot probleem: de data die ze nodig hebben (bijvoorbeeld patiëntfoto's of bankafschriften) is extreem gevoelig. Wetten zeggen dat deze data niet naar één centrale plek mag, zoals een grote server van een techbedrijf.

Het oude probleem: De "Grote Vergaderzaal"
Vroeger probeerden mensen dit op te lossen met "Federated Learning". De idee was: laten we de modellen naar elkaar sturen in plaats van de data.

  • Het nadeel: Stel je voor dat 100 mensen in een vergaderzaal zitten. Iedereen heeft een eigen idee (een model). Ze moeten allemaal hun hele notitieboek (de parameters) naar elkaar sturen om één groot, gemiddeld notitieboek te maken.
    • Dit is traag (veel data verkeer).
    • Het is onveilig (je kunt soms de originele foto's terugrekenen uit de notities).
    • Het werkt slecht als de mensen heel verschillend zijn. Een arts die foto's van longen bekijkt, heeft een heel ander "denkpatroon" nodig dan iemand die tekst in foto's zoekt (OCR). Als je hun notities zomaar mengt, krijg je een rommelig gemiddelde dat nergens goed in is.

De nieuwe oplossing: "MoR" (Mix van Beloningen)
De auteurs van dit paper (Lu en collega's) zeggen: "Waarom sturen we niet onze notities naar elkaar, maar gewoon onze meningen over wat goed is?"

Ze noemen hun methode MoR (Mixture-of-Rewards). Hier is hoe het werkt, vertaald naar een simpel verhaal:

1. De Lokale Experts (De Klanten)

Stel je een ziekenhuis, een bank en een bibliotheek voor.

  • Het ziekenhuis heeft een eigen "jurylid" (een beloningsmodel) dat alleen kijkt naar medische nauwkeurigheid.
  • De bank heeft een jurylid dat kijkt naar financiële logica.
  • De bibliotheek heeft een jurylid dat kijkt naar leesbaarheid.
    Elke instelling houdt hun eigen data (de foto's) veilig bij zich. Ze trainen alleen hun eigen jurylid op hun eigen data. Ze sturen geen foto's naar buiten.

2. De Slimme Portier (De Router)

Nu hebben we een centraal punt nodig dat weet welk jurylid we moeten raadplegen voor een specifieke vraag.

  • Stel je een slimme portier voor in een groot hotel. Als er een medische vraag komt, stuurt hij die naar het medische jurylid. Als er een vraag komt over tekst in een foto, stuurt hij die naar het bibliotheek-jurylid.
  • Deze "portier" (de router) wordt getraind door de instellingen samen, maar hij leert alleen hoe hij moet kiezen. Hij leert niet de data zelf. Hij is lichtgewicht en snel.

3. Het Spel: Wie heeft gelijk?

Wanneer het centrale AI-model een antwoord probeert te geven, gebeurt het volgende:

  1. Het model maakt een antwoord.
  2. De slimme portier kijkt naar de vraag en zegt: "Ah, dit is een medische vraag! Laten we het medische jurylid vragen of dit goed is."
  3. Het medische jurylid geeft een score (een beloning).
  4. Het centrale model leert van die score en wordt beter.

Waarom is dit zo slim?

  • Privacy: Niemand ziet de foto's van de patiënten of de bankrekeningen. Alleen de "meningen" (scores) worden gedeeld.
  • Schaalbaarheid: Je hoeft geen enorme notitieboeken te versturen. Je stuurt alleen een klein signaal: "Dit antwoord is goed voor deze specifieke vraag."
  • Diversiteit: Het werkt perfect als de instellingen heel verschillend zijn. De portier zorgt ervoor dat de juiste expert de juiste vraag beantwoordt, zonder dat de zwakke experts de sterke experts verpesten (een probleem dat optreedt bij het zomaar middelen van alles).

De Analogie: Het Restaurant

Stel je een restaurant voor met één hoofdkok (het centrale model) en drie lokale experts in de buurt: een vis-specialist, een vlees-specialist en een zoetwaren-specialist.

  • De oude manier: De hoofdkok moet elke dag naar elke specialist gaan, hun hele kookboek kopiëren en proberen alles in één groot boek te plakken. Dat is veel werk en de boeken zijn vaak te groot om te vervoeren.
  • De MoR-methode: De hoofdkok blijft in zijn keuken. Als er een visgerecht besteld wordt, belt hij de vis-specialist: "Is dit visgerecht goed?" De specialist zegt: "Ja, 10/10!" De hoofdkok past zijn recept aan. Als er een taart besteld wordt, belt hij de zoetwaren-specialist.
    • De hoofdkok wordt zo een "meesterkok" die van alles kan, omdat hij de juiste expert raadpleegt op het juiste moment.
    • De specialisten hoeven hun recepten (data) niet te delen, ze geven alleen een oordeel.

Conclusie
Dit paper introduceert een manier om AI's samen te laten werken zonder dat ze hun geheimen (data) hoeven te delen. In plaats van te proberen iedereen gelijk te trekken, gebruiken ze een slimme "router" om de juiste mening van de juiste persoon te halen. Dit maakt het mogelijk om superkrachtige AI's te bouwen voor gevoelige gebieden zoals de zorg en financiën, terwijl de privacy van iedereen gewaarborgd blijft.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →