Replacing Parameters with Preferences: Federated Alignment of Heterogeneous Vision-Language Models

Die Arbeit stellt MoR vor, ein federiertes Ausrichtungsframework für heterogene Vision-Language-Modelle, das anstelle des Austauschs von Parametern lokale Präferenzen mittels eines Mixture-of-Rewards-Ansatzes und GRPO nutzt, um Datenschutz zu gewährleisten und die Generalisierungsfähigkeit zu verbessern.

Shule Lu, Yujing Wang, Hainan Zhang, Xiaoshan Yang, Hongwei Zheng, Yongxin Tong, Changsheng Xu, Zhiming Zheng

Veröffentlicht 2026-03-06
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben eine Gruppe von Experten, die alle sehr gut darin sind, Bilder zu beschreiben und Fragen dazu zu beantworten. Aber jeder Experte hat einen ganz speziellen Hintergrund:

  • Experte A ist ein Arzt und kennt sich perfekt mit medizinischen Bildern aus, aber er ist etwas unsicher bei alltäglichen Dingen.
  • Experte B ist ein Detektiv, der winzige Details auf Fotos findet, aber medizinische Fachbegriffe verwirren ihn.
  • Experte C ist ein Übersetzer, der Text auf Bildern (wie Straßenschilder) perfekt lesen kann, aber bei komplexen Zusammenhängen stolpert.

Das Problem: Diese Experten arbeiten in verschiedenen Ländern und dürfen ihre Patientenakten oder privaten Fotos niemals miteinander teilen. Sie wollen aber gemeinsam einen „Super-Experten" trainieren, der in allen Situationen gut ist.

Das alte Problem: Der „Austausch von Gehirnen"

Bisherige Methoden (Federated Learning) versuchten, die Gehirne (die KI-Modelle) der Experten zu teilen. Sie schickten ihre inneren Gewichte und Parameter hin und her, um ein gemeinsames Modell zu bauen.
Das ist wie wenn jeder Experte versucht, sein ganzes Gehirn in einen Rucksack zu packen, den er zum anderen schickt.

  • Das ist schwer: Die Rucksäcke sind riesig (viele Daten).
  • Das ist riskant: Wenn man den Rucksack öffnet, kann man vielleicht Rückschlüsse auf die privaten Fotos der anderen ziehen.
  • Das ist chaotisch: Wenn der Arzt und der Detektiv völlig unterschiedliche Denkweisen haben, passt das zusammengeklebte Gehirn oft nicht gut zusammen.

Die neue Lösung: MoR – „Der Tausch von Meinungen statt von Gehirnen"

Die Autoren dieses Papers schlagen eine viel elegantere Methode vor, die sie MoR (Mixture-of-Rewards) nennen. Statt die Gehirne auszutauschen, tauschen sie nur ihre Meinungen darüber aus, was eine gute Antwort ist.

Hier ist die Analogie:

1. Jeder behält sein eigenes Urteil (Lokale Belohnungsmodelle)

Jeder Experte behält seine privaten Fotos und Daten. Stattdessen trainiert jeder für sich einen kleinen „Kritiker" (einen Reward Model).

  • Der Arzt-Kritiker bewertet Antworten darauf, ob sie medizinisch korrekt sind.
  • Der Detektiv-Kritiker bewertet, ob alle Details stimmen.
  • Der Übersetzer-Kritiker bewertet, ob der Text auf dem Bild richtig gelesen wurde.
    Niemand muss seine Daten verlassen. Sie haben nur gelernt, wie man eine „gute" Antwort erkennt.

2. Der „Kellner" (Der Router)

Jetzt kommt der Clou: Auf dem Server gibt es einen intelligenten Kellner (den Router).
Wenn eine neue Frage kommt (z. B. „Was ist auf diesem Röntgenbild zu sehen?"), fragt der Kellner nicht alle Kritiker gleichzeitig um Rat (das wäre zu langsam). Stattdessen schaut er sich die Frage an und sagt:

  • „Das klingt nach Medizin! Ich hole mir die Meinung des Arzt-Kritikers."
  • „Das ist ein Text auf einem Schild? Ich hole mir die Meinung des Übersetzers."

Der Kellner lernt durch eine Art „Schwarmintelligenz" (Federated Learning), welcher Kritiker für welche Art von Frage am besten geeignet ist. Er mischt die Meinungen der Experten dynamisch zusammen, genau wie ein guter Koch, der für jedes Gericht die perfekten Zutaten auswählt.

3. Der „Super-Experte" wird trainiert

Der eigentliche KI-Modell (der „Super-Experte") lernt nun, Antworten zu geben, die von diesem gemischten Kellner-Kritiker-System als „sehr gut" bewertet werden.

  • Wenn die Antwort medizinisch ist, wird sie vom Arzt-Kritiker belohnt.
  • Wenn sie detailreich ist, vom Detektiv-Kritiker.

Warum ist das so genial?

  1. Datenschutz: Niemand schickt jemals ein einziges privates Foto oder eine Patientenakte weg. Nur die „Meinung" (eine Zahl, wie gut eine Antwort ist) wird geteilt. Das ist wie wenn man einem Freund sagt: „Dein Rezept war toll!", ohne ihm sein geheimes Kochbuch zu geben.
  2. Vielfalt: Es spielt keine Rolle, ob der Arzt ein riesiges Gehirn hat und der Detektiv ein kleines. Der Kellner weiß einfach, wann er wessen Meinung braucht. Das alte „Austausch-Verfahren" wäre hier gescheitert, weil die Gehirne zu unterschiedlich waren.
  3. Geschwindigkeit: Statt riesige Datenpakete zu versenden, werden nur kleine „Meinungen" ausgetauscht. Das ist viel schneller und spart Energie.

Zusammenfassung

Statt zu versuchen, alle unterschiedlichen KI-Modelle in einen einzigen, riesigen, unhandlichen Brocken zu zwängen, erlaubt MoR den Modellen, ihre eigene Identität zu behalten. Ein intelligenter Vermittler (der Router) sorgt dafür, dass zur richtigen Zeit die richtige Meinung herangezogen wird.

Es ist der Unterschied zwischen einem chaotischen Meeting, bei dem alle gleichzeitig schreien, und einem gut organisierten Orchester, bei dem der Dirigent (der Router) genau weiß, wann die Geige und wann die Trompete spielen muss, um die perfekte Melodie zu erzeugen – und das alles, ohne dass die Musiker ihre Instrumente austauschen müssen.