DC-Merge: Improving Model Merging with Directional Consistency

Each language version is independently generated for its own context, not a direct translation.

Die große Idee: Wie man mehrere Experten zu einem Super-Experten macht

Stell dir vor, du hast drei verschiedene Meisterhandwerker:

Herr Müller ist ein genialer Koch.
Frau Schmidt ist eine Weltklasse-Architektin.
Herr Weber ist ein Meister-Gärtner.

Jeder von ihnen hat jahrelang an einem einzigen, riesigen Werkzeugkasten gearbeitet, um in seinem Fachgebiet perfekt zu sein. Jetzt möchtest du einen einzigen Werkzeugkasten bauen, der alle drei Fähigkeiten vereint. Du nimmst einfach die Werkzeuge aller drei und wirfst sie in eine große Kiste.

Das Problem: Wenn du das tust, passiert oft ein Chaos.

Der Koch braucht einen großen, schweren Hammer für das Hackfleisch. Die Architektin braucht einen leichten, präzisen Skalpell für die feinen Linien. Wenn du sie mischst, wird der Hammer so schwer, dass die Architektin ihre feinen Linien nicht mehr ziehen kann.
Oder: Der Gärtner hat so viele kleine Scheren, dass sie den Hammer verdecken. Der Kochs-Hammer dominiert alles, und die feinen Details des Gartens gehen verloren.

Das ist genau das Problem, das die Forscher mit DC-Merge lösen wollen. Sie nennen es „Modell-Merging" (das Zusammenführen von KI-Modellen).

Die zwei Hauptprobleme (Die „Katastrophen")

Die Forscher haben zwei Hauptgründe gefunden, warum das einfache Mischen oft scheitert:

1. Das „Lautstärke"-Problem (Ungleichgewicht der Energie)
Stell dir vor, jeder Handwerker hat eine Liste von Anweisungen. Bei den meisten KI-Modellen sind diese Anweisungen extrem unausgewogen.

Ein paar Anweisungen (die „lautesten") sind so dominant, dass sie 99 % der Aufmerksamkeit bekommen.
Aber es gibt auch viele leise, aber wichtige Anweisungen (z. B. „Achte auf die Farbe der Blätter" oder „Vermeide scharfe Kanten"), die fast übertönt werden.
Wenn man die Modelle mischt, werden diese leisen, aber wichtigen Details einfach ignoriert, weil die „lauten" Anweisungen alles überdecken. Das Ergebnis ist ein KI-Modell, das nur noch grobe Muster erkennt, aber Details vergisst.

2. Das „Sprach"-Problem (Geometrische Inkonsistenz)
Stell dir vor, der Koch denkt in „Metern", die Architektin in „Zentimetern" und der Gärtner in „Schritten".

Wenn du ihre Anweisungen einfach addierst, kommst du auf Unsinniges heraus (z. B. 1 Meter + 1 Zentimeter + 1 Schritt = ?).
In der KI-Welt bedeutet das: Die Richtungen, in die die Modelle denken, sind nicht aufeinander abgestimmt. Wenn man sie direkt mischt, verzerren sie sich gegenseitig. Die „Richtung" des Wissens geht verloren.

Die Lösung: DC-Merge (Der Diplomat)

Die Forscher haben eine neue Methode namens DC-Merge entwickelt. Man kann sich das wie einen sehr klugen Diplomat vorstellen, der vor dem Mischen zwei Dinge tut:

Schritt 1: Die Lautstärke regeln (Energy Smoothing)
Bevor die Handwerker ihre Werkzeuge in die Kiste werfen, geht der Diplomat zu jedem und sagt:

„Herr Koch, du darfst deinen Hammer nicht so laut schreien lassen. Mach ihn etwas leiser."
„Frau Architektin, du darfst dein Skalpell nicht so flüstern. Mach es etwas lauter."
Das Ziel: Alle Anweisungen werden auf ein ähnliches „Lautstärken-Niveau" gebracht. Niemand dominiert mehr. So werden auch die feinen, leisen Details (die schwachen Singularwerte) gehört und behalten.

Schritt 2: Eine gemeinsame Sprache finden (Cover Space Merging)
Jetzt müssen die Anweisungen gemischt werden. Aber da jeder eine andere „Sprache" (Richtung) spricht, übersetzt der Diplomat alle Anweisungen in eine neue, gemeinsame Sprache.

Er baut einen neutralen Raum (einen „gemeinsamen Raum"), in dem alle Anweisungen auf die gleiche Weise geschrieben sind.
Erst wenn alle in dieser neutralen Sprache sind, werden sie gemischt (addiert).
Danach übersetzt der Diplomat das Ergebnis zurück in die originale Sprache der KI.
Das Ergebnis: Da alle in der gleichen Sprache gemischt wurden, verzerren sie sich nicht gegenseitig. Die Richtungen bleiben erhalten.

Warum ist das so toll?

Bisherige Methoden waren wie ein „Würfeln": Man hat einfach die besten Teile genommen oder die Mittelwerte gebildet. Das funktionierte okay, aber oft vergaß die KI, wie man Dinge genau macht.

DC-Merge ist wie ein perfekter Dirigent:

Er sorgt dafür, dass jedes Instrument (jeder Wissens-Teil) gleich laut spielt (keine Dominanz).
Er sorgt dafür, dass alle im gleichen Takt und in der gleichen Tonart spielen (gleiche Richtung).

Das Ergebnis:
Die neue KI kann plötzlich alles: Sie kocht, baut Häuser und pflegt Gärten – und das alles gleichzeitig, ohne dass sie vergisst, wie man die Details macht. In Tests hat diese Methode gezeigt, dass sie besser ist als alle bisherigen Methoden, sowohl bei einfachen Bildern als auch bei komplexen Aufgaben, bei denen Bilder und Text kombiniert werden.

Zusammenfassung in einem Satz

DC-Merge ist wie ein genialer Übersetzer und Lautstärkeregler, der sicherstellt, dass beim Zusammenfügen mehrerer KI-Experten niemand übertönt wird und alle in derselben Sprache sprechen, damit das Ergebnis ein wahres Super-Genie ist.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Model Merging (Modellverschmelzung) zielt darauf ab, mehrere für spezifische Aufgaben feinabgestimmte Modelle in ein einziges, einheitliches Modell zu integrieren, ohne die Fähigkeiten der einzelnen Aufgaben zu verlieren. Trotz bestehender Methoden (wie Task Arithmetic oder TIES-Merging) leiden verschmolzene Modelle oft unter Leistungsabfällen, insbesondere bei heterogenen Aufgaben.

Die Autoren identifizieren zwei fundamentale Probleme, die die direktionale Konsistenz (directional consistency) der Wissenskomponenten zwischen den einzelnen Task-Vektoren und dem verschmolzenen Vektor stören:

Ungleichgewichtige Energieverteilung: In den Task-Vektoren (definiert als Differenz zwischen feinabgestimmtem und vortrainiertem Modell) folgt die Verteilung der Singulärwerte oft einer langgezogenen Verteilung (Long-Tailed Distribution). Ein kleiner Teil der Singulärwerte dominiert die gesamte „Energie" (Bedeutung), während semantisch wichtige, aber schwächere Komponenten vernachlässigt werden. Beim direkten Mergen führt dies zu einer Überbetonung dominanter Richtungen und einem Verlust an Generalisierungsfähigkeit.
Geometrische Inkonsistenz im Parameterraum: Unterschiedliche Aufgaben spannen heterogene, niedrigdimensionale Unterräume auf, deren Orientierungen nicht geometrisch ausgerichtet sind. Ein direktes Mergen im ursprünglichen Parameterraum verzerrt daher die zugrunde liegende Richtungsgeometrie der Wissenskomponenten.

2. Methodik: DC-Merge

Um diese Herausforderungen zu lösen, schlagen die Autoren DC-Merge vor, eine Methode, die explizit die direkte Konsistenz zwischen dem verschmolzenen Multi-Task-Vektor und den ursprünglichen Task-Vektoren sicherstellt. Der Ansatz besteht aus zwei komplementären Modulen:

A. Energy Smoothing (Energieglättung)

Bevor das Mergen stattfindet, wird die Energieverteilung jedes Task-Vektors ausgeglichen.

Prozess: Die Task-Vektoren werden mittels Singulärwertzerlegung (SVD) in orthogonale Wissensvektoren zerlegt. Anstatt die ursprünglichen, stark verzerrten Singulärwerte zu nutzen, werden diese geglättet (z. B. durch Ersetzen aller top- $r$ Singulärwerte durch ihren Durchschnitt).
Ziel: Dies stellt sicher, dass alle Wissenskomponenten – auch die schwächeren, aber semantisch reichen – angemessen repräsentiert werden und nicht durch dominante Komponenten unterdrückt werden. Dies verhindert das „Representational Collapse" und erweitert den Ausdrucksradius des Vektors für andere Aufgaben.

B. Cover Space Merging (Verschmelzung im überdeckenden Raum)

Um die geometrische Ausrichtung zu erhalten, werden die geglätteten Vektoren nicht direkt im ursprünglichen Parameterraum gemergt.

Gemeinsamer Basisraum: Es wird ein gemeinsamer orthogonaler Unterraum (Cover Space) konstruiert, der die Richtungsgeometrie aller Task-Vektoren abdeckt. Dies geschieht durch das „Whitening" (Verweißung) der verketteten Singulärvektoren aller Aufgaben, was eine effiziente Näherung für die optimale Basisdarstellung liefert.
Projektion und Aggregation: Die geglätteten Task-Vektoren werden auf diesen gemeinsamen orthogonalen Unterraum projiziert. In diesem Raum werden sie mittels bestehender Methoden (wie Task Arithmetic oder TIES) aggregiert.
Rückprojektion und Maskierung: Der aggregierte Vektor wird zurück in den ursprünglichen Parameterraum projiziert. Ein strukturelles Masken-Verfahren (block-diagonale Maske) wird angewendet, um Kreuz-Interferenzen zwischen Aufgaben zu unterdrücken und die ursprüngliche Richtungsgeometrie zu bewahren.

Neue Metrik: DirSim

Die Autoren führen DirSim (Directional Similarity) ein, eine neue Metrik zur Quantifizierung der Konsistenz. Im Gegensatz zur herkömmlichen Kosinus-Ähnlichkeit, die stark von der Energieverteilung (dominante Singulärwerte) beeinflusst wird, isoliert DirSim die reine Richtungskonsistenz, indem die Energieverteilung uniformisiert wird. Die Autoren zeigen empirisch, dass eine hohe DirSim stark mit der Leistung des verschmolzenen Modells korreliert.

3. Wichtige Beiträge

Konzept der Direktionalen Konsistenz: Der Nachweis, dass die Erhaltung der Richtungsgeometrie von Wissenskomponenten entscheidender für den Erfolg des Model Mergings ist als die exakte Beibehaltung der Energieverteilung.
DirSim-Metrik: Einführung einer neuen Metrik, die die Leistung von Merging-Methoden besser vorhersagt als traditionelle Ähnlichkeitsmaße.
DC-Merge Algorithmus: Entwicklung eines effektiven Verfahrens, das Energieausgleich und Projektion in einen gemeinsamen orthogonalen Raum kombiniert, um die direkte Konsistenz zu maximieren.
Umfassende Evaluation: Demonstration des State-of-the-Art (SOTA) sowohl bei vollparametrischem Fine-Tuning (FFT) als auch bei LoRA (Low-Rank Adaptation) auf visuellen und vision-sprachlichen Benchmarks.

4. Ergebnisse

Die Methode wurde auf einer Vielzahl von Benchmarks getestet, darunter:

Visuelle Aufgaben: 8-, 14- und 20-Aufgaben-Benchmarks mit CLIP-Modellen (ViT-B-32, ViT-B-16, ViT-L-14).
Vision-Language-Aufgaben: MM-MergeBench mit dem LLaVA-v1.5-7B-Modell (sichtbare und unsichtbare Aufgaben).

Ergebnisse:

Leistung: DC-Merge übertrifft konsistent bestehende SOTA-Methoden (wie TIES-Merging, Iso-CTS, TSV-M, WUDI-Merging) in Bezug auf die durchschnittliche normalisierte Genauigkeit.
Skalierbarkeit: Der Leistungsfortschritt wird mit zunehmender Anzahl der Aufgaben (Task-Skalierung) noch deutlicher, was die Robustheit der Methode gegenüber heterogenen Aufgaben zeigt.
Generalisierung: Das Modell zeigt eine starke Fähigkeit zur Generalisierung auf bisher nicht gesehene Aufgaben (Unseen Tasks), insbesondere im multimodalen Bereich.
Ablationsstudien: Die Studien bestätigen, dass sowohl die Energy Smoothing als auch das Cover Space Merging essenzielle Komponenten sind; ihre Kombination führt zu den besten Ergebnissen. Die Verwendung von Masken ist besonders im FFT-Setting kritisch für die Vermeidung von Richtungsinkonsistenzen.

5. Bedeutung und Fazit

DC-Merge adressiert ein fundamentales theoretisches Problem im Bereich des Model Mergings: die geometrische Verzerrung von Wissensräumen bei der Verschmelzung heterogener Aufgaben. Durch die Entkopplung von Energieverteilung und Richtungsgeometrie und die Einführung eines gemeinsamen orthogonalen Rahmens ermöglicht die Methode eine stabilere und leistungsfähigere Integration von Expertenwissen.

Die Arbeit legt nahe, dass zukünftige Merging-Strategien weniger auf die Feinabstimmung von Gewichtungsfaktoren und mehr auf die Bewahrung der strukturellen Richtungsintegrität der Wissenskomponenten fokussieren sollten. Die Implementierung ist öffentlich verfügbar und bietet einen neuen Standard für datenfreies Model Merging in Full-Fine-Tuning und LoRA-Szenarien.