OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging

Each language version is independently generated for its own context, not a direct translation.

🧩 Das große Puzzle: Wie man KI-Experten zusammenfügt, ohne neu zu lernen

Stell dir vor, du hast eine riesige Bibliothek mit genialen Spezialisten.

Einer ist ein Genie für Geometrie, kann aber keine Bilder lesen.
Ein anderer ist ein Meister im Lesen von Texten (OCR), versteht aber keine Diagramme.
Ein Dritter ist ein Kunstexperte, der Charts und Grafiken perfekt interpretiert.

Normalerweise müsstest du, um einen "Super-Experten" zu haben, der alles kann, alle diese Spezialisten in einen riesigen Topf werfen und sie gemeinsam mit neuen Daten trainieren. Das ist aber extrem teuer, langsam und braucht riesige Mengen an Daten.

OptMerge ist wie ein magischer Kleber, der diese Spezialisten ohne neue Daten zu einem einzigen, allwissenden Super-Modell zusammenfügt.

🏗️ Das Problem: Warum ist das so schwierig?

Bisher gab es zwei Hauptprobleme beim Zusammenfügen (Merging) von KI-Modellen:

Der "Verwirrungs-Effekt": Wenn man zwei Modelle einfach so mischt (wie zwei verschiedene Suppen), geraten ihre "Gedanken" oft durcheinander. Der Geometrie-Experte vergisst plötzlich, wie man Diagramme liest, weil die Gewichte des Diagramm-Experten im Weg sind.
Das "Rauschen": Wenn ein Modell trainiert wird, ändert es seine inneren Einstellungen (Gewichte). Diese Änderungen enthalten nicht nur das Gelernte, sondern auch viel "Lärm" (zufällige Anpassungen, die für die Aufgabe nicht nötig sind). Wenn man diesen Lärm mitmischt, wird das Ergebnis schlechter.

Bisherige Methoden waren wie ein grobes Sieb: Sie haben versucht, die Modelle zu mischen, haben aber oft den wichtigen Inhalt verloren oder den Lärm mitgenommen.

💡 Die Lösung: OptMerge – Der "Entstörungs-Kleber"

Die Forscher von OptMerge haben eine neue Methode entwickelt, die wie ein feines Sieb mit einem speziellen Filter funktioniert.

1. Das "Task-Vector"-Konzept (Die Gedanken-Spuren)

Stell dir vor, jedes trainierte Modell hinterlässt eine Spur im Gedächtnis des Basis-Modells. Diese Spur heißt "Task Vector".

Das Problem: Diese Spuren sind oft unordentlich und überlagern sich.
Die OptMerge-Lösung: Sie schauen sich diese Spuren genau an und entfernen den "Lärm". Sie nutzen eine mathematische Technik (ähnlich wie beim Entfernen von Hintergrundgeräuschen in einem Musikstudio), um nur die wichtigen Kerninformationen der Spur zu behalten.

2. Der "Rauschen-Filter" (Low-Rank Approximation)

Stell dir vor, du hast einen Haufen alter Zeitungen (die Trainingsdaten). Darin steht viel Wichtiges, aber auch viel Werbung und unnötiges Gekritzel.

OptMerge schneidet die Zeitungen so zu, dass nur die wichtigsten Artikel übrig bleiben. Es wirft den Rest weg.
Dadurch wird die Spur des Spezialisten klarer und präziser. Wenn man nun die Spuren der Geometrie-, Chart- und OCR-Experten zusammenfügt, stören sie sich nicht gegenseitig, sondern ergänzen sich perfekt.

3. Der "Stabilitäts-Check"

Manchmal versucht die KI beim Zusammenfügen, einen "Abkürzungsweg" zu nehmen, indem sie ihre Einstellungen extrem stark verändert, um den Lärm zu ignorieren. Das führt dazu, dass die KI ihre Sprache vergisst (sie wird "dumm").
OptMerge verhindert das, indem es die Änderungen der KI kontrolliert und sicherstellt, dass sie sich nicht zu weit vom Ursprung entfernt. Es ist wie ein Gurt im Auto: Er lässt dich fahren, aber verhindert, dass du aus dem Fahrzeug geschleudert wirst.

🌍 Was haben sie herausgefunden? (Die Ergebnisse)

Die Forscher haben einen neuen "Prüfstand" (Benchmark) gebaut, um verschiedene Mischmethoden zu testen. Hier sind die coolsten Ergebnisse:

Besser als das Training: Das zusammengefügte Modell war oft sogar besser als ein Modell, das man mühsam mit allen Daten neu trainiert hätte. Das ist, als würdest du drei separate Meister zusammenfügen und ein noch besserer Meister herauskommt, ohne dass du sie nochmal unterrichten musst.
Alles in einem (Omni-Modell): Sie haben nicht nur Text- und Bild-Modelle gemischt, sondern auch Audio- und Video-Modelle. Das Ergebnis ist ein "Omni-Sprachmodell", das Bilder, Töne und Videos gleichzeitig versteht.
Riesige Ersparnis: Statt Wochen an Rechenzeit und Millionen an Daten zu brauchen, dauert das Zusammenfügen nur Stunden und benötigt kaum Speicherplatz.

🚀 Fazit für den Alltag

OptMerge ist wie ein Rezept für einen perfekten Smoothie, bei dem du keine neuen Früchte kaufen musst. Du nimmst einfach die besten, bereits gereiften Früchte (die spezialisierten KI-Modelle), schälst die Schalen (den Lärm) ab und mixt sie mit einem speziellen Werkzeug (der Algorithmus) zusammen.

Das Ergebnis ist ein Super-Modell, das alles kann, das aber kostenlos (in Bezug auf neue Trainingsdaten) und schnell entsteht. Es öffnet die Tür für eine Zukunft, in der wir KI-Modelle wie Lego-Steine einfach nach Bedarf zusammenstecken können, ohne jedes Mal das ganze Haus neu bauen zu müssen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Foundation Models (Basis-Modelle) entwickeln sich aufgrund des ressourcenintensiven Trainings langsam weiter, während domänenspezifische Modelle in der Zwischenzeit rasch evolvieren. Das Model Merging (Modellverschmelzung) zielt darauf ab, mehrere Expertenmodelle in ein einziges, leistungsfähigeres Modell zu kombinieren, um Speicher- und Servicing-Kosten zu senken und dezentrale Entwicklung zu unterstützen.

Trotz des Potenzials gab es bisher folgende Lücken:

Fokus auf einfache Aufgaben: Bisherige Studien konzentrierten sich hauptsächlich auf das Merging von visuellen Klassifikationsmodellen oder Large Language Models (LLMs) für Code- und Mathematikaufgaben.
Fehlende Benchmarks für MLLMs: Es existierte kein Benchmark für das Merging von Multimodalen Large Language Models (MLLMs), der die Aufgaben klar in Training und Evaluation unterteilt.
Herausforderung bei Modalitäten: Das Integrieren neuer Modalitäten (z. B. Audio, Video) in ein bestehendes LLM erfordert normalerweise teures Neutrainieren auf multimodalen Daten.
Ineffizienz: Bestehende Merging-Methoden für MLLMs (wie AdaMMS oder UQ-Merge) sind oft auf zwei Modelle beschränkt, benötigen Testdaten oder kategorisieren MLLM-Fähigkeiten nicht ausreichend.

2. Methodik

Das Paper stellt OptMerge vor, eine neue Methode, die das Merging von MLLMs verbessert, indem sie Rauschen aus Task-Vektoren entfernt und die Optimierung robuster gestaltet.

A. Benchmark für MLLM-Merging

Die Autoren führen den ersten umfassenden Benchmark für MLLM-Merging ein:

Aufgabenkategorien: VQA (Visual Question Answering), Geometrie, Diagramm-Verständnis (Chart), OCR (Texterkennung) und Grounding (Objektverortung).
Daten: Für jede Aufgabe wurden öffentliche Datensätze mit jeweils mindestens 100.000 Samples gesammelt, um ein effektives Supervised Fine-Tuning (SFT) zu gewährleisten.
Basis-Modelle: Es wurden zwei verschiedene Architekturen verwendet: InternVL2.5 (Full Fine-Tuning) und Qwen2-VL (LoRA Fine-Tuning).
Modalitäten: Der Benchmark testet auch das Merging verschiedener Modalitäten (Vision, Audio, Video) hin zu einem „Omni-Modell".

B. Theoretische Analyse

Die Autoren leiten eine obere Schranke für den Fehler zwischen dem gemischten Modell und den Expertenmodellen her (Theorem 3.1).

Erkenntnis: Die Leistung des Mergings hängt stark von der Lernrate und der Anzahl der Iterationen ab.
Paradoxon: Zu starkes Fine-Tuning (hohe Genauigkeit auf Einzelaufgaben) führt oft zu einer großen Parameterdrift, was das Merging verschlechtert. Modelle, die nahe am Basis-Modell bleiben (kleine Parameteränderungen), lassen sich besser mergen.

C. Die OptMerge-Methode

OptMerge optimiert den Task-Vektor (die Differenz zwischen feinabgestimmtem und Basis-Modell) durch folgende Schritte:

Rauschreduktion via SVD: Task-Vektoren enthalten Redundanz und Rauschen. OptMerge verwendet eine Singulärwertzerlegung (SVD), um die wichtigsten task-spezifischen Merkmale zu isolieren und Rauschen in den oberen und unteren Singulärvektoren zu entfernen.
Low-Rank Approximation: Anstatt den gesamten Task-Vektor zu nutzen, wird eine Low-Rank-Näherung ( $U_{1:k}\Sigma_{1:k}V_{1:k}^T$ ) verwendet. Dies reduziert die Interferenz zwischen Aufgaben und bewahrt kritische Informationen.
Optimierung der Loss-Funktion: Die Methode minimiert eine Loss-Funktion, die auf der Interaktion zwischen Task-Vektoren definiert ist, anstatt sie einfach zu addieren.
Spezifische Anpassungen:
- Für LoRA-Modelle (wie Qwen2-VL): Da LoRA-Vektoren bereits low-rank sind, wird die SVD ohne Mittelwertzentrierung angewendet. Zudem wird SGD statt Adam verwendet, um flache lokale Optima besser zu verlassen und die Stabilität bei dünnbesetzten Gradienten zu erhöhen.
- Für Full Fine-Tuning (wie InternVL2.5): Die Methode nutzt die SVD zur Denoisierung und Initialisierung des gemischten Vektors mit dem Mittelwert der Task-Vektoren, um übermäßige Normen zu vermeiden.

3. Wichtige Beiträge

Benchmark: Einführung des ersten MLLM-Merging-Benchmarks mit feingranularer Kategorisierung von Fähigkeiten (VQA, Geometrie, Chart, OCR, Grounding) und öffentlicher Freigabe der Gewichte und des Codes.
Methode (OptMerge): Entwicklung einer einfachen, aber effektiven Methode, die Rauschen aus Task-Vektoren filtert und die Robustheit der Optimierung durch Low-Rank-Approximationen und angepasste Optimierer (SGD für LoRA) verbessert.
Experimentelle Validierung: Umfassende Experimente zeigen, dass Merging ohne Trainingsdaten (Data-Free) die Leistung von gemischtem Training (Mixture Training) übertreffen kann und eine skalierbare Lösung für Omni-Modelle bietet.

4. Ergebnisse

Leistungssteigerung: OptMerge erreicht im Durchschnitt eine Leistungsverbesserung von 2,48 % gegenüber dem besten bestehenden Merging-Verfahren (WUDI Merging).
Überlegenheit gegenüber Expertenmodellen: Das gemischte Modell übertrifft oft die einzelnen Expertenmodelle in deren jeweiligen Spezialgebieten. Beispielsweise erreicht das gemischte Qwen2-VL auf Geometrie-Aufgaben 51,05 Punkte (vs. 42,50 und 28,95 bei den einzelnen Modellen).
Modalitäten-Merging: Das Merging von Vision-, Audio- und Video-Modellen führt zu einem Omni-Modell, das in Zero-Shot-Aufgaben (z. B. Audio-Visual QA) besser abschneidet als Modelle, die nur auf einer einzelnen Modalität trainiert wurden. Dies unterstreicht die Komplementarität der Modalitäten.
Effizienz: Im Vergleich zu Mixture Training (dem Zusammenführen aller Trainingsdaten und Neutrainieren) ist OptMerge extrem effizient:
- Zeit: 0,22 Stunden vs. 25,38 Stunden (für InternVL2.5).
- GPU-Speicher: 2,62 GB vs. 240 GB.
Skalierbarkeit: Die Methode funktioniert auch bei größeren Modellen (Qwen2.5-VL-32B) und auf realen, von der Community veröffentlichten Checkpoints (z. B. Pokémon-Modell, OCR-Modell) effektiv.

5. Bedeutung und Ausblick

Das Paper demonstriert, dass Model Merging ein vielversprechender Weg ist, um verbesserte MLLMs ohne den Bedarf an neuen Trainingsdaten zu erstellen.

Kosteneffizienz: Es ermöglicht die Wiederverwendung von Expertenmodellen und reduziert den Rechenaufwand für die Entwicklung neuer Modelle drastisch.
Omni-Modelle: Es bietet einen datenfreien Ansatz, um verschiedene Modalitäts-Encoder in ein einheitliches LLM zu integrieren, was den Weg zu echten „Omni-Modellen" ebnet.
Community-Nutzen: Durch den offenen Benchmark und die Freigabe der Checkpoints wird die Forschung im Bereich des MLLM-Mergings vorangetrieben und ermöglicht eine bessere Vergleichbarkeit von Methoden.

Zusammenfassend zeigt OptMerge, dass durch intelligente mathematische Optimierung (Rauschfilterung und Low-Rank-Approximation) die Grenzen des Mergings für komplexe multimodale Aufgaben überwunden werden können, was eine skalierbare Alternative zum traditionellen Fine-Tuning darstellt.