A Step Toward Federated Pretraining of Multimodal Large Language Models

Die Arbeit stellt Fed-CMP vor, ein bahnbrechendes Framework für das federierte Vortraining multimodaler Sprachmodelle, das durch kanonische, zuverlässigkeitsbewusste Aggregation und orthogonales Momentum die Herausforderungen der Parameterinterferenz und Gradientenoszillation in verteilten Umgebungen effektiv löst.

Baochen Xiong, Yifan Xu, Xiaoshan Yang, Yaguang Song, Yaowei Wang, Changsheng Xu

Veröffentlicht 2026-03-31
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Titel: Wie man KI-Modelle gemeinsam lernt, ohne die Privatsphäre zu verletzen

Stell dir vor, du möchtest einen extrem klugen Roboter (eine sogenannte „Multimodale KI") bauen, der Bilder und Sprache gleichzeitig versteht. Bisher haben diese Roboter nur aus öffentlichen Datenbanken gelernt – wie ein Schüler, der nur aus einer einzigen, sehr großen Bibliothek lernt. Aber diese Bibliothek ist fast leer, und es gibt keine neuen, hochwertigen Bücher mehr.

Das Problem: Die wirklich spannenden, neuen Daten liegen verstreut in den privaten Schränken von Millionen Menschen und Firmen (auf Handys, in Krankenhäusern, in Firmenarchiven). Niemand darf diese Daten jedoch einfach herausgeben, weil das die Privatsphäre verletzen würde.

Die Lösung: Ein gemeinsames Lernen ohne Datenaustausch
Die Forscher aus diesem Papier haben eine neue Methode entwickelt, die wie ein geheimes Gruppenprojekt funktioniert. Statt dass alle ihre privaten Daten an einen zentralen Server schicken (was verboten ist), schicken sie nur ihre Lernfortschritte (die „Gedanken" oder mathematischen Anpassungen) an einen zentralen Lehrer. Der Lehrer fasst diese Fortschritte zusammen und schickt eine verbesserte Version zurück. Niemand sieht dabei die privaten Bilder oder Texte der anderen.

Das große Problem beim Zusammenfassen
Wenn man jetzt einfach die Lernfortschritte von 5 verschiedenen Gruppen mittelt, passiert oft ein Chaos:

  1. Der „Verwirrte Dolmetscher"-Effekt: Stell dir vor, Gruppe A lernt, dass ein Bild von einem Hund das Wort „Wau" bedeutet, aber Gruppe B (die nur Hunde in Parks sieht) denkt, es bedeutet „Spaziergang". Wenn der Lehrer diese beiden Meinungen einfach mittelt, entsteht ein verwirrter Roboter, der gar nicht mehr weiß, was ein Hund ist. Das nennt man im Papier „Parameter-Interferenz".
  2. Der „Vergessliche Schüler"-Effekt: Da die Daten nur einmal gesehen werden (wie ein Fluss, der nicht zurückfließt), vergisst der Roboter schnell, was er in der vorherigen Runde gelernt hat. Er zittert hin und her und lernt nichts Stabiles.

Die neue Erfindung: Fed-CMP
Um dieses Chaos zu lösen, haben die Autoren Fed-CMP erfunden. Man kann sich das wie einen genialen Dirigenten vorstellen, der ein Orchester aus lauter verschiedenen Musikern leitet:

  1. Der „Gemeinsame Taktstock" (Canonical Reliability-Aware Aggregation):
    Statt die Noten der Musiker einfach wild zu mischen, baut der Dirigent erst einen gemeinsamen Taktstock (eine Basis). Jeder Musiker spielt dann seine eigene Version eines Songs, aber der Dirigent zerlegt die Musik in zwei Teile:

    • Den gemeinsamen Rhythmus (den alle verstehen).
    • Die individuellen Verzierungen (die nur dieser eine Musiker macht).
      Der Dirigent mischt dann nur die Verzierungen der Musiker, die wirklich gut spielen (hohe Zuverlässigkeit), und ignoriert die, die nur Lärm machen. So entsteht eine klare, gemeinsame Melodie, ohne dass die Verwirrung entsteht.
  2. Der „Gedächtnis-Schalter" (Orthogonality-Preserved Momentum):
    Um das Vergessen zu verhindern, gibt der Dirigent dem gemeinsamen Taktstock einen Gedächtnis-Schalter. Er sagt: „Wir nehmen nicht nur das, was gerade passiert, sondern behalten auch den stabilen Rhythmus der letzten Stunden bei." Aber er macht das auf eine spezielle Weise, damit die Musik nicht aus dem Takt gerät (die mathematische Struktur bleibt erhalten). So wird der Roboter stabiler und vergisst nicht, was er schon gelernt hat.

Das Ergebnis
Die Forscher haben das in vier verschiedenen Szenarien getestet (wie wenn man die Daten nach Bildern, Texten oder einer Mischung davon sortiert). Das Ergebnis ist beeindruckend:

  • Der neue Roboter (Fed-CMP) lernt viel besser als alle bisherigen Methoden.
  • Er ist besonders stark, wenn die Daten sehr unterschiedlich sind (wie in der echten Welt).
  • Er vergisst weniger und wird mit jeder Runde stabiler.

Fazit
Dieser Papier ist ein wichtiger Schritt, um KI-Modelle zu bauen, die nicht nur aus öffentlichen Daten lernen, sondern auch aus den privaten Daten der Welt – ohne dabei die Privatsphäre zu verletzen. Es ist, als würde man eine globale Schule gründen, in der jeder seine Hausaufgaben macht, ohne die Heftchen der anderen zu sehen, aber alle am Ende einen besseren Abschluss machen.