Knowledge Fusion of Large Language Models Via Modular SkillPacks

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen riesigen, extrem intelligenten Bibliothekar (ein großes Sprachmodell), der alles über Mathematik weiß. Dann hast du einen zweiten Bibliothekar, der ein Genie in Programmieren ist, und einen dritten, der wie ein Anwalt für Rechtsthemen ist.

Das Problem bisher war: Wenn du diese drei Bibliothekare zu einem einzigen Super-Bibliothekar zusammenfügen wolltest, wurde es chaotisch. Entweder vergaß der neue Bibliothekar, wie man Mathe löst (weil er sich zu sehr auf das Recht konzentrierte), oder er wurde so riesig und schwerfällig, dass er kaum noch laufen konnte.

Die Forscher in diesem Papier haben eine neue Lösung namens GraftLLM erfunden. Hier ist die Erklärung, wie das funktioniert, ganz einfach und mit ein paar Bildern im Kopf:

1. Das Problem: Der "Alles-in-einem"-Koch

Stell dir vor, du möchtest einen Koch, der perfekt italienisch, perfekt japanisch und perfekt mexikanisch kochen kann.

Der alte Weg (Full Fine-Tuning): Du nimmst einen Koch und zwingst ihn, alle drei Küchen zu lernen. Das Problem: Er lernt vielleicht das japanische Sushi, vergisst aber das italienische Pasta-Rezept. Oder er wird so überladen, dass er nichts mehr richtig macht.
Der andere Weg (PEFT/LoRA): Du gibst dem Koch nur kleine Notizblöcke mit Rezepten. Das ist leicht, aber oft nicht gut genug, um wirklich meisterhafte Gerichte zu kochen.

2. Die Lösung: GraftLLM – Der "Skill-Pack" (Fertig-Set)

GraftLLM sagt: "Warum müssen wir den ganzen Koch neu erfinden? Wir behalten den Grundkoch (das Basis-Modell) und fügen ihm nur die spezifischen Werkzeuge hinzu."

Sie nennen diese Werkzeuge SkillPacks (Fertig-Sets).

Das Grundmodell: Das ist dein Standard-Koch, der schon sehr gut ist.
Der SkillPack: Das ist ein kleiner, kompakter Koffer, der nur die neuen Rezepte enthält (z. B. nur die Mathematik-Rezepte oder nur die Programmier-Rezepte).

3. Wie wird der Koffer so klein? (Die Magie der Kompression)

Normalerweise wären diese neuen Rezepte riesig und würden viel Platz wegnehmen. Aber GraftLLM nutzt einen cleveren Trick, den sie "modulare adaptive Kompression" nennen.

Stell dir vor, du packst deinen Koffer:

Für einfache Dinge (wie die Eingabe-Wörter): Du wirfst nur die wichtigsten Wörter rein und lässt den Rest weg (wie beim Packen von Kleidung, wo du nur das Nötigste nimmst).
Für komplexe Dinge (wie die Aufmerksamkeit des Kochs): Du zerlegst die Rezepte in ihre Grundbausteine und drückst sie zusammen, ohne dass der Geschmack verloren geht (wie beim Vakuumieren von Kissen).
Für die schwersten Teile (die Logik): Du behältst die absolut wichtigsten Teile bei und komprimierst nur die unwichtigen Details.

Das Ergebnis ist ein SkillPack, der winzig klein ist (vielleicht nur 10 % der Größe eines ganzen neuen Modells), aber trotzdem alles kann, was der große Spezialist konnte.

4. Der Router: Der Türsteher

Jetzt hast du deinen Grundkoch und drei kleine Koffer (einer für Mathe, einer für Code, einer für Recht). Wie weiß der Koch, welchen Koffer er öffnen soll?

Hier kommt der Router (ein kleiner Türsteher) ins Spiel.

Wenn du sagst: "Löse mir eine Matheaufgabe", schaut der Türsteher hin und sagt: "Ah, Mathe! Öffne den Mathe-Koffer!"
Wenn du sagst: "Schreibe mir einen Code", sagt er: "Code-Koffer öffnen!"

Der Koch muss nicht alle Koffer gleichzeitig tragen. Er öffnet nur den, der gerade gebraucht wird. Das spart enorm viel Energie und Speicherplatz.

5. Warum ist das so cool? (Die Vorteile)

Kein Vergessen (Forget-Free Learning): Weil du den Grundkoch nicht veränderst, vergisst er nie, was er vorher konnte. Du kannst ihm einfach einen neuen Koffer (SkillPack) für eine neue Fähigkeit geben, ohne dass er alte Fähigkeiten verliert.
Mix & Match: Du kannst SkillPacks von ganz verschiedenen Modellen mischen. Ein SkillPack von einem chinesischen Modell und einer von einem amerikanischen Modell passen perfekt zusammen, weil sie nur die "Zusatzrezepte" sind.
Platzsparend: Anstatt drei riesige Modelle zu speichern, speicherst du ein kleines Basis-Modell und drei winzige Koffer. Das ist viel billiger und schneller.

Zusammenfassung in einem Satz

GraftLLM ist wie ein modulares Werkzeugset: Anstatt einen riesigen, schweren Hammer zu bauen, der alles kann, behältst du einen guten Griff (das Basis-Modell) und steckst je nach Aufgabe nur den passenden, winzigen Kopf (den SkillPack) drauf. So wird der Super-Koch schlau, schnell und vergisst nichts.

Each language version is independently generated for its own context, not a direct translation.

Titel: Knowledge Fusion of Large Language Models via Modular Skillpacks (GraftLLM)

Veröffentlicht bei: ICLR 2026

1. Problemstellung

Die Forschung im Bereich Large Language Models (LLMs) steht vor der Herausforderung des Cross-Capability-Transfers: Wie können Fähigkeiten und Wissen verschiedener, spezialisierter Quellmodelle effizient auf ein Zielmodell übertragen werden, ohne dass es zu Katastrophalem Vergessen (Catastrophic Forgetting) oder Leistungsabfällen kommt?

Bestehende Ansätze weisen folgende Mängel auf:

Homogenität: Viele Merging-Methoden (z. B. Ties-Merging, Task Arithmetic) funktionieren nur gut bei homogenen Modellen (gleiche Architektur).
Distillation-Probleme:
- Vollständige Feinabstimmung (Full-Parameter Fine-Tuning): Ignoriert oft die inhärenten Fähigkeiten des Zielmodells und führt zu katastrophalem Vergessen.
- PEFT-Methoden (z. B. LoRA): Sind zwar parameter-effizient, können aber oft nicht genug Wissen aus den Quellmodellen absorbieren und erreichen selten die Leistung einer vollständigen Feinabstimmung.
Konflikte: Bei der Fusion heterogener Modelle (unterschiedliche Architekturen wie LLaMA, Qwen, Mistral) treten häufig Parameterkonflikte auf, die die Leistung mindern.

2. Methodik: GraftLLM

Das Paper stellt GraftLLM vor, eine neuartige Methode, die auf dem Prinzip des „Grafting" (Pfropfung) basiert. Statt das gesamte Zielmodell neu zu trainieren, werden Fähigkeiten als kompakte, modulare Einheiten, sogenannte SkillPacks, in das Zielmodell integriert.

A. Grundlegender Workflow

Zweiphasiges Training: Ein Zielmodell ( $\theta_{tgt}$ ) wird zunächst mit Supervised Fine-Tuning (SFT) und anschließend mit Direct Preference Optimization (DPO) auf Daten eines starken Quellmodells ( $\theta_{src}$ ) angepasst.
Delta-Erzeugung: Die Differenz zwischen den angepassten Parametern ( $\theta^*_{tgt}$ ) und den ursprünglichen Parametern ( $\theta_{tgt}$ ) wird als Delta ( $\Delta\theta$ ) berechnet. Dieses Delta enthält das spezifische Aufgabenwissen.
Modulare Kompression (SkillPack-Erstellung): Anstatt das gesamte Delta zu speichern, wird eine modulbewusste adaptive Kompressionsstrategie angewendet. Je nach Modultyp werden unterschiedliche Techniken gewählt:
- Embedding & Output Head: Magnitude-Pruning (Löschen unwichtiger Gewichte).
- Attention-Module: Low-Rank-Zerlegung mittels SVD (Singulärwertzerlegung), da diese Module oft einen schnell abfallenden Singulärwert-Spektrum aufweisen.
- MLP-Module: Konservativere SVD-Anwendung, die kritische Singulärvektoren basierend auf einem Energie-Schwellenwert beibehält, um nichtlineare Transformationen zu erhalten.
- Quantisierung: Eine gemischte Präzisions-Quantisierung (z. B. 2-bit bis 8-bit) wird auf die komprimierten Komponenten angewendet, um den Speicherbedarf weiter zu senken, ohne die Leistung signifikant zu beeinträchtigen.
Rekonstruktion und Routing: Der komprimierte SkillPack kann dekomprimiert und über einen Router selektiv aktiviert werden. Der Router entscheidet basierend auf der Eingabe, welcher SkillPack (welche Fähigkeit) angewendet wird, um Interferenzen zwischen Aufgaben zu minimieren.

B. Vorteile des Ansatzes

Heterogenität: Funktioniert auch bei Modellen mit unterschiedlichen Architekturen.
Vergessensfreiheit: Da die Basisparameter des Zielmodells unverändert bleiben, kann das Modell neue Fähigkeiten hinzufügen, ohne alte zu verlieren.
Modularität: SkillPacks können leicht hinzugefügt, entfernt oder ausgetauscht werden (z. B. für Unlearning oder Entgiftung/De-toxification).

3. Wichtige Beiträge

Identifikation von Limitierungen: Das Paper hebt die Notwendigkeit hervor, Cross-Capability-Transfer zwischen heterogenen LLMs zu lösen und zeigt die Grenzen bestehender Methoden auf.
Entwicklung von GraftLLM: Einführung eines Frameworks, das Fähigkeiten als modulare SkillPacks kodiert. Dies bietet eine hohe Leistung, Widerstandsfähigkeit gegen Vergessen und einfache Integration.
Umfassende Evaluation: Experimente belegen die Überlegenheit von GraftLLM in den Bereichen Wissenstransfer, heterogene Modellfusion und vergessensfreies Lernen.

4. Ergebnisse

Die Autoren führten Experimente in drei Hauptszenarien durch:

Paarweiser Transfer (Pairwise Grafting):
- Beim Transfer von Fähigkeiten von Qwen-2.5-72B auf LLaMA-3.1-8B unter SFT- und DPO-Bedingungen übertraf GraftLLM PEFT-Methoden (LoRA) und andere Kompressionsverfahren (Pruning, SVD) deutlich.
- GraftLLM erreichte Leistungen, die nahe an einer vollständigen Feinabstimmung lagen, bei einem Bruchteil der Parameter.
Wissensfusion (Knowledge Fusion):
- Explizite Fusion: Auf Benchmarks wie MT-Bench und AlpacaEval 2.0 fusionierte GraftLLM sechs verschiedene Chat-Modelle in ein einziges Zielmodell. Es erzielte bessere Ergebnisse als alle Quellmodelle und übertraf bestehende Merging-Methoden (wie Ties-Merging, Twin-Merging) bei geringeren Parameterkosten.
- Implizite Fusion: Über 10 Benchmarks (Mathematik, Code, Allgemeinwissen) zeigte GraftLLM signifikante Verbesserungen gegenüber Methoden wie PCB-Merging und FuseChat-3.0, insbesondere bei der Vermeidung von Aufgabenkonflikten.
Vergessensfreies Lernen (Forget-Free Learning):
- In einem Szenario, in dem das Modell nacheinander Mathematik- und Codierungsfähigkeiten lernte, verhinderte GraftLLM das Vergessen der ursprünglichen Aufgaben effektiv.
- Im Vergleich zu Baselines wie Model Grafting und Model Tailor erreichte GraftLLM eine durchschnittliche Leistungssteigerung von 2,1 % bei gleichem Parameterbudget (ca. 10 % der Gesamtparameter).
Domänenfusion (Finanzen, Recht, Biomedizin):
- GraftLLM konnte Fähigkeiten aus drei stark unterschiedlichen Domänen fusionieren und erreichte fast verlustfreie Leistung (99 % der Originalleistung), selbst bei einer Kompression auf 10 % der Parameter.

5. Bedeutung und Ausblick

GraftLLM stellt einen Paradigmenwechsel in der LLM-Fusion dar. Anstatt Modelle zu verschmelzen und dabei Konflikte zu riskieren, ermöglicht es das modulare „Anpfropfen" von Fähigkeiten.

Skalierbarkeit: Die Methode ist ideal für Szenarien, in denen Modelle ständig neue Fähigkeiten lernen müssen, ohne neu trainiert zu werden.
Effizienz: Durch die adaptive Kompression und den Router-Mechanismus wird Speicherplatz gespart und die Inferenzkosten bleiben niedrig.
Sicherheit: Die Möglichkeit, SkillPacks einfach zu entfernen, bietet neue Wege für Unlearning (z. B. Entfernen von toxischem Wissen oder Privatsphärenverletzungen).

Das Paper unterstreicht, dass die Zukunft der LLM-Entwicklung nicht in immer größeren monolithischen Modellen liegt, sondern in flexiblen, kompositionalen Systemen, die Wissen effizient austauschen und kombinieren können. Der Code ist öffentlich verfügbar, was die Reproduzierbarkeit und weitere Forschung fördert.