Replacing Parameters with Preferences: Federated Alignment of Heterogeneous Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben eine Gruppe von Experten, die alle sehr gut darin sind, Bilder zu beschreiben und Fragen dazu zu beantworten. Aber jeder Experte hat einen ganz speziellen Hintergrund:

Experte A ist ein Arzt und kennt sich perfekt mit medizinischen Bildern aus, aber er ist etwas unsicher bei alltäglichen Dingen.
Experte B ist ein Detektiv, der winzige Details auf Fotos findet, aber medizinische Fachbegriffe verwirren ihn.
Experte C ist ein Übersetzer, der Text auf Bildern (wie Straßenschilder) perfekt lesen kann, aber bei komplexen Zusammenhängen stolpert.

Das Problem: Diese Experten arbeiten in verschiedenen Ländern und dürfen ihre Patientenakten oder privaten Fotos niemals miteinander teilen. Sie wollen aber gemeinsam einen „Super-Experten" trainieren, der in allen Situationen gut ist.

Das alte Problem: Der „Austausch von Gehirnen"

Bisherige Methoden (Federated Learning) versuchten, die Gehirne (die KI-Modelle) der Experten zu teilen. Sie schickten ihre inneren Gewichte und Parameter hin und her, um ein gemeinsames Modell zu bauen.
Das ist wie wenn jeder Experte versucht, sein ganzes Gehirn in einen Rucksack zu packen, den er zum anderen schickt.

Das ist schwer: Die Rucksäcke sind riesig (viele Daten).
Das ist riskant: Wenn man den Rucksack öffnet, kann man vielleicht Rückschlüsse auf die privaten Fotos der anderen ziehen.
Das ist chaotisch: Wenn der Arzt und der Detektiv völlig unterschiedliche Denkweisen haben, passt das zusammengeklebte Gehirn oft nicht gut zusammen.

Die neue Lösung: MoR – „Der Tausch von Meinungen statt von Gehirnen"

Die Autoren dieses Papers schlagen eine viel elegantere Methode vor, die sie MoR (Mixture-of-Rewards) nennen. Statt die Gehirne auszutauschen, tauschen sie nur ihre Meinungen darüber aus, was eine gute Antwort ist.

Hier ist die Analogie:

1. Jeder behält sein eigenes Urteil (Lokale Belohnungsmodelle)

Jeder Experte behält seine privaten Fotos und Daten. Stattdessen trainiert jeder für sich einen kleinen „Kritiker" (einen Reward Model).

Der Arzt-Kritiker bewertet Antworten darauf, ob sie medizinisch korrekt sind.
Der Detektiv-Kritiker bewertet, ob alle Details stimmen.
Der Übersetzer-Kritiker bewertet, ob der Text auf dem Bild richtig gelesen wurde.
Niemand muss seine Daten verlassen. Sie haben nur gelernt, wie man eine „gute" Antwort erkennt.

2. Der „Kellner" (Der Router)

Jetzt kommt der Clou: Auf dem Server gibt es einen intelligenten Kellner (den Router).
Wenn eine neue Frage kommt (z. B. „Was ist auf diesem Röntgenbild zu sehen?"), fragt der Kellner nicht alle Kritiker gleichzeitig um Rat (das wäre zu langsam). Stattdessen schaut er sich die Frage an und sagt:

„Das klingt nach Medizin! Ich hole mir die Meinung des Arzt-Kritikers."
„Das ist ein Text auf einem Schild? Ich hole mir die Meinung des Übersetzers."

Der Kellner lernt durch eine Art „Schwarmintelligenz" (Federated Learning), welcher Kritiker für welche Art von Frage am besten geeignet ist. Er mischt die Meinungen der Experten dynamisch zusammen, genau wie ein guter Koch, der für jedes Gericht die perfekten Zutaten auswählt.

3. Der „Super-Experte" wird trainiert

Der eigentliche KI-Modell (der „Super-Experte") lernt nun, Antworten zu geben, die von diesem gemischten Kellner-Kritiker-System als „sehr gut" bewertet werden.

Wenn die Antwort medizinisch ist, wird sie vom Arzt-Kritiker belohnt.
Wenn sie detailreich ist, vom Detektiv-Kritiker.

Warum ist das so genial?

Datenschutz: Niemand schickt jemals ein einziges privates Foto oder eine Patientenakte weg. Nur die „Meinung" (eine Zahl, wie gut eine Antwort ist) wird geteilt. Das ist wie wenn man einem Freund sagt: „Dein Rezept war toll!", ohne ihm sein geheimes Kochbuch zu geben.
Vielfalt: Es spielt keine Rolle, ob der Arzt ein riesiges Gehirn hat und der Detektiv ein kleines. Der Kellner weiß einfach, wann er wessen Meinung braucht. Das alte „Austausch-Verfahren" wäre hier gescheitert, weil die Gehirne zu unterschiedlich waren.
Geschwindigkeit: Statt riesige Datenpakete zu versenden, werden nur kleine „Meinungen" ausgetauscht. Das ist viel schneller und spart Energie.

Zusammenfassung

Statt zu versuchen, alle unterschiedlichen KI-Modelle in einen einzigen, riesigen, unhandlichen Brocken zu zwängen, erlaubt MoR den Modellen, ihre eigene Identität zu behalten. Ein intelligenter Vermittler (der Router) sorgt dafür, dass zur richtigen Zeit die richtige Meinung herangezogen wird.

Es ist der Unterschied zwischen einem chaotischen Meeting, bei dem alle gleichzeitig schreien, und einem gut organisierten Orchester, bei dem der Dirigent (der Router) genau weiß, wann die Geige und wann die Trompete spielen muss, um die perfekte Melodie zu erzeugen – und das alles, ohne dass die Musiker ihre Instrumente austauschen müssen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Vision-Language-Modelle (VLMs) haben großes Potenzial in datenschutzsensiblen Bereichen wie Gesundheitswesen und Finanzen. Herkömmliches zentralisiertes Training ist jedoch aufgrund strenger Datenschutzbestimmungen (z. B. DSGVO) oft unmöglich, da Rohdaten nicht geteilt werden dürfen.
Federated Learning (FL) bietet zwar eine dezentrale Alternative, stößt jedoch bei heterogenen VLMs an Grenzen:

Datenschutzrisiken: Der Austausch von Modellparametern kann durch Gradienten-Inversions-Angriffe zu einer Rekonstruktion privater Daten führen.
Heterogenität: Clients unterscheiden sich in Rechenleistung, Anwendungszielen und Modellarchitekturen. Eine einfache Aggregation von Parametern (wie bei FedAvg) ist oft ineffizient oder führt zu einem „Eimer-Effekt", bei dem schwächere Modelle die Gesamtleistung verschlechtern.
Konflikte in Präferenzen: Unterschiedliche Clients haben unterschiedliche Bewertungskriterien (z. B. medizinische Genauigkeit vs. visuelle Details), die sich in einem monolithischen Belohnungsmodell widersprechen können.

Die Autoren argumentieren, dass der Paradigmenwechsel vom Austausch von Parametern hin zum Austausch von Präferenzen (Rewards) eine skalierbare und datenschutzfreundlichere Zukunft für FL darstellt.

2. Methodik: MoR (Mixture-of-Rewards)

Das Paper stellt MoR vor, ein Framework zur federierten Ausrichtung (Alignment) heterogener VLMs, das auf GRPO (Group Relative Policy Optimization) und einem Mixture-of-Rewards-Ansatz basiert.

Das Framework besteht aus drei Hauptphasen:

A. Dezentrales Training von Belohnungsmodellen (Reward Models)

Jeder Client trainiert lokal ein eigenes Belohnungsmodell ( $R_k$ ) auf seinen privaten Präferenzdaten (z. B. Paare von bevorzugten und abgelehnten Antworten).
Dies geschieht ohne Austausch von Rohdaten. Die Modelle können unterschiedliche Architekturen haben (Heterogenität).
Die trainierten Belohnungsmodelle werden zum zentralen Server hochgeladen.

B. Federiertes Training eines Routing-Netzwerks

Um die heterogenen Belohnungssignale zu vereinen, wird ein leichtgewichtiges Routing-Netzwerk ( $g_\phi$ ) federiert trainiert.
Das Routing-Netzwerk lernt, basierend auf dem Eingabe-Kontext (Bild + Text), welche Belohnungssignale der verschiedenen Clients für eine spezifische Aufgabe am relevantesten sind.
Es wird ein Mixture-of-Rewards gebildet: $R_{mix}(x, y) = \sum \alpha_k(x, y) \cdot R_k(x, y)$ , wobei $\alpha_k$ die vom Router zugewiesenen Gewichte sind.
Nur die Parameter des leichten Routers werden zwischen Server und Clients ausgetauscht, was den Kommunikations-Overhead im Vergleich zum Austausch ganzer VLM-Parameter drastisch reduziert.

C. GRPO mit Online-Router-Updates

Das Basis-VLM wird mittels GRPO optimiert. Dabei werden Gruppen von Antwortkandidaten generiert und relativ zueinander bewertet.
Online-Update des Routers: Da sich die Verteilung der vom VLM generierten Antworten während des Trainings ändert (Distribution Shift), wird das Routing-Netzwerk nicht statisch gelassen.
Der Router wird als kontextueller Bandit (Contextual Bandit) behandelt und mittels Neural Thompson Sampling online aktualisiert. Er wählt dynamisch das beste Belohnungsmodell aus, um die Policy-Optimierung zu verbessern, und lernt dabei aus dem Feedback der GRPO-Zielsetzung (Verbesserung oder Verschlechterung der Policy).

3. Schlüsselbeiträge

Paradigmenwechsel: Die Arbeit schlägt vor, in FL bei VLMs von der Parameter-Sharing-Strategie zur Präferenz-Sharing-Strategie überzugehen, um Datenschutz und Heterogenität besser zu adressieren.
MoR Framework: Entwicklung eines Mixture-of-Rewards-Ansatzes, der strukturell diverse Belohnungsmodelle über ein Routing-Netzwerk integriert, anstatt sie zu aggregieren.
Dynamische Anpassung: Einführung eines Online-Lernmechanismus für den Router während des Reinforcement-Learning-Prozesses, um Distribution Shifts zu bewältigen.
Skalierbarkeit: Das System ist so konzipiert, dass Clients unterschiedliche Modellgrößen und Architekturen nutzen können, ohne die Gesamtleistung zu beeinträchtigen.

4. Ergebnisse

Die Methode wurde auf drei öffentlichen VQA-Datensätzen (Visual Question Answering) getestet, die in drei Domänen unterteilt wurden: Medical, OCR-like und Detail Description.

Überlegenheit gegenüber Baselines: MoR übertrifft konsistent etablierte Methoden wie FedAvg, einfache Mittelwertbildung (Avg RM) und statische Aggregationen (Pluralistic) in Bezug auf Generalisierung, Robustheit und Anpassungsfähigkeit.
Umgang mit Heterogenität: In Szenarien mit heterogenen Belohnungsmodellen (z. B. ein sehr kleines, schwaches Modell gemischt mit starken Modellen) verhindert MoR den Leistungsabfall, der bei einfachen Mittelwerten auftritt. Der Router filtert Rauschen von schwachen Modellen heraus und nutzt die Stärken der besten Experten.
Leistungsmetriken:
- In der heterogenen Einstellung erreichte MoR im medizinischen Bereich einen Durchschnittswert von 8,25 (vs. 7,52 beim besten Einzelmodell).
- Die Methode zeigte eine höhere visuelle Treue (Visual Faithfulness) und geringere Halluzinationen als Baselines.
Effizienz: Der Ansatz hat eine konstante Komplexität $O(1)$ bezüglich der Anzahl der Clients für die Kommunikation, da nur der Router und nicht die gesamten Policy-Modelle ausgetauscht werden. Dies ist deutlich effizienter als parametrisches FL.

5. Bedeutung und Ausblick

Die Arbeit bietet eine skalierbare Lösung für das Problem der datenschutzkonformen Ausrichtung von Vision-Language-Modellen in heterogenen Umgebungen.

Praktische Relevanz: Sie ermöglicht Institutionen mit unterschiedlichen Ressourcen (z. B. Krankenhäuser mit unterschiedlicher Rechenleistung) und Datenhoheit, gemeinsam an robusten KI-Modellen zu arbeiten, ohne sensible Patientendaten zu teilen.
Zukunftsperspektive: Die Autoren sehen Potenzial darin, MoR auf dynamischere FL-Umgebungen zu erweitern, in denen sich die Anzahl der teilnehmenden Clients ändert, ohne das gesamte System neu trainieren zu müssen.

Zusammenfassend demonstriert MoR, dass der Austausch von Präferenzen statt Parametern ein vielversprechender Weg ist, um die Privatsphäre zu wahren, die Kommunikation zu optimieren und die Leistung heterogener multimodaler Systeme zu maximieren.