DC-Merge: Improving Model Merging with Directional Consistency

Der Artikel stellt DC-Merge vor, eine Methode zum Zusammenführen von Modellen, die durch den Ausgleich der Energieverteilung in Singulärwerten und die Projektion auf einen gemeinsamen orthogonalen Unterraum die Richtungskonsistenz zwischen einzelnen Aufgabenvektoren erhält und damit in Vision- und Vision-Sprache-Benchmarks state-of-the-art-Ergebnisse erzielt.

Han-Chen Zhang, Zi-Hao Zhou, Mao-Lin Luo, Shimin Di, Min-Ling Zhang, Tong Wei

Veröffentlicht 2026-03-09
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Die große Idee: Wie man mehrere Experten zu einem Super-Experten macht

Stell dir vor, du hast drei verschiedene Meisterhandwerker:

  1. Herr Müller ist ein genialer Koch.
  2. Frau Schmidt ist eine Weltklasse-Architektin.
  3. Herr Weber ist ein Meister-Gärtner.

Jeder von ihnen hat jahrelang an einem einzigen, riesigen Werkzeugkasten gearbeitet, um in seinem Fachgebiet perfekt zu sein. Jetzt möchtest du einen einzigen Werkzeugkasten bauen, der alle drei Fähigkeiten vereint. Du nimmst einfach die Werkzeuge aller drei und wirfst sie in eine große Kiste.

Das Problem: Wenn du das tust, passiert oft ein Chaos.

  • Der Koch braucht einen großen, schweren Hammer für das Hackfleisch. Die Architektin braucht einen leichten, präzisen Skalpell für die feinen Linien. Wenn du sie mischst, wird der Hammer so schwer, dass die Architektin ihre feinen Linien nicht mehr ziehen kann.
  • Oder: Der Gärtner hat so viele kleine Scheren, dass sie den Hammer verdecken. Der Kochs-Hammer dominiert alles, und die feinen Details des Gartens gehen verloren.

Das ist genau das Problem, das die Forscher mit DC-Merge lösen wollen. Sie nennen es „Modell-Merging" (das Zusammenführen von KI-Modellen).


Die zwei Hauptprobleme (Die „Katastrophen")

Die Forscher haben zwei Hauptgründe gefunden, warum das einfache Mischen oft scheitert:

1. Das „Lautstärke"-Problem (Ungleichgewicht der Energie)
Stell dir vor, jeder Handwerker hat eine Liste von Anweisungen. Bei den meisten KI-Modellen sind diese Anweisungen extrem unausgewogen.

  • Ein paar Anweisungen (die „lautesten") sind so dominant, dass sie 99 % der Aufmerksamkeit bekommen.
  • Aber es gibt auch viele leise, aber wichtige Anweisungen (z. B. „Achte auf die Farbe der Blätter" oder „Vermeide scharfe Kanten"), die fast übertönt werden.
  • Wenn man die Modelle mischt, werden diese leisen, aber wichtigen Details einfach ignoriert, weil die „lauten" Anweisungen alles überdecken. Das Ergebnis ist ein KI-Modell, das nur noch grobe Muster erkennt, aber Details vergisst.

2. Das „Sprach"-Problem (Geometrische Inkonsistenz)
Stell dir vor, der Koch denkt in „Metern", die Architektin in „Zentimetern" und der Gärtner in „Schritten".

  • Wenn du ihre Anweisungen einfach addierst, kommst du auf Unsinniges heraus (z. B. 1 Meter + 1 Zentimeter + 1 Schritt = ?).
  • In der KI-Welt bedeutet das: Die Richtungen, in die die Modelle denken, sind nicht aufeinander abgestimmt. Wenn man sie direkt mischt, verzerren sie sich gegenseitig. Die „Richtung" des Wissens geht verloren.

Die Lösung: DC-Merge (Der Diplomat)

Die Forscher haben eine neue Methode namens DC-Merge entwickelt. Man kann sich das wie einen sehr klugen Diplomat vorstellen, der vor dem Mischen zwei Dinge tut:

Schritt 1: Die Lautstärke regeln (Energy Smoothing)
Bevor die Handwerker ihre Werkzeuge in die Kiste werfen, geht der Diplomat zu jedem und sagt:

  • „Herr Koch, du darfst deinen Hammer nicht so laut schreien lassen. Mach ihn etwas leiser."
  • „Frau Architektin, du darfst dein Skalpell nicht so flüstern. Mach es etwas lauter."
  • Das Ziel: Alle Anweisungen werden auf ein ähnliches „Lautstärken-Niveau" gebracht. Niemand dominiert mehr. So werden auch die feinen, leisen Details (die schwachen Singularwerte) gehört und behalten.

Schritt 2: Eine gemeinsame Sprache finden (Cover Space Merging)
Jetzt müssen die Anweisungen gemischt werden. Aber da jeder eine andere „Sprache" (Richtung) spricht, übersetzt der Diplomat alle Anweisungen in eine neue, gemeinsame Sprache.

  • Er baut einen neutralen Raum (einen „gemeinsamen Raum"), in dem alle Anweisungen auf die gleiche Weise geschrieben sind.
  • Erst wenn alle in dieser neutralen Sprache sind, werden sie gemischt (addiert).
  • Danach übersetzt der Diplomat das Ergebnis zurück in die originale Sprache der KI.
  • Das Ergebnis: Da alle in der gleichen Sprache gemischt wurden, verzerren sie sich nicht gegenseitig. Die Richtungen bleiben erhalten.

Warum ist das so toll?

Bisherige Methoden waren wie ein „Würfeln": Man hat einfach die besten Teile genommen oder die Mittelwerte gebildet. Das funktionierte okay, aber oft vergaß die KI, wie man Dinge genau macht.

DC-Merge ist wie ein perfekter Dirigent:

  1. Er sorgt dafür, dass jedes Instrument (jeder Wissens-Teil) gleich laut spielt (keine Dominanz).
  2. Er sorgt dafür, dass alle im gleichen Takt und in der gleichen Tonart spielen (gleiche Richtung).

Das Ergebnis:
Die neue KI kann plötzlich alles: Sie kocht, baut Häuser und pflegt Gärten – und das alles gleichzeitig, ohne dass sie vergisst, wie man die Details macht. In Tests hat diese Methode gezeigt, dass sie besser ist als alle bisherigen Methoden, sowohl bei einfachen Bildern als auch bei komplexen Aufgaben, bei denen Bilder und Text kombiniert werden.

Zusammenfassung in einem Satz

DC-Merge ist wie ein genialer Übersetzer und Lautstärkeregler, der sicherstellt, dass beim Zusammenfügen mehrerer KI-Experten niemand übertönt wird und alle in derselben Sprache sprechen, damit das Ergebnis ein wahres Super-Genie ist.