Knowledge Fusion of Large Language Models Via Modular SkillPacks

Each language version is independently generated for its own context, not a direct translation.

De Kern: Een Slimme "Skill-Plugin" voor AI

Stel je voor dat je een grote, algemene robot hebt (een Large Language Model, of LLM) die goed kan praten, maar niet heel goed is in wiskunde of programmeren. Je wilt dat hij deze vaardigheden leert van andere, gespecialiseerde robots.

De oude manier om dit te doen was alsof je de hersenen van de specialisten probeerde te transplanteren in de hersenen van de algemene robot. Dit had twee grote problemen:

Verwarring: De nieuwe kennis botste met de oude, waardoor de robot dingen vergat die hij al wist (zoals "catastrophic forgetting").
Grootte: Je moest de hele robot vervangen of enorm zwaar maken, wat veel energie en ruimte kostte.

GraftLLM (de nieuwe uitvinding uit dit paper) lost dit op met een heel slim idee: In plaats van de hersenen te vervangen, plakken we er een "vaardigheids-pakket" op.

De Vergelijking: De Robot en de SkillPacks

Laten we de techniek uitleggen met een paar alledaagse metaforen:

1. De "SkillPack" (Vaardigheids-pakket)

Stel je voor dat je een basis-robot hebt. Je wilt dat hij wiskunde kan doen. In plaats van de robot te herscheppen, maak je een kleine, draagbare "vaardigheids-chip" (een SkillPack).

Deze chip bevat alleen de nieuwe instructies die nodig zijn om wiskunde te doen.
De chip is heel klein en licht, omdat hij niet de hele robot bevat, maar alleen de "verschillen" (de delta's) tussen de basis-robot en de wiskunde-expert.
Je kunt deze chip erop plakken, en de robot wordt direct een wiskundegenie. Haal je de chip eraf, dan is hij weer de oude, normale robot zonder dat hij iets vergeten is.

2. De "Kunst van het Knippen en Plakken" (Grafting)

De naam GraftLLM komt van entten in de tuinbouw. Als je een appelboom wilt die ook peren draagt, ent je een takje van een perenboom op de appelboom. De boom blijft een appelboom, maar hij kan nu ook peren produceren zonder dat de hele boom vervangen hoeft te worden.

GraftLLM doet precies dit met AI-modellen. Het "ent" kennis van een grote, sterke bron-robot op een kleinere doel-robot, zonder de basisstructuur van de doel-robot kapot te maken.

3. De "Slimme Verpakking" (Compressie)

Een SkillPack kan nog steeds te groot zijn om makkelijk te dragen. Daarom gebruiken de onderzoekers een slimme verpakkingsmethode:

Ze kijken naar elk onderdeel van de robot (bijvoorbeeld: het geheugen voor woorden, het rekenmodule, het logische module).
Voor sommige onderdelen (zoals het rekenen) gebruiken ze een schrappende methode (pruning): ze gooien de onbelangrijke stukjes weg.
Voor andere onderdelen (zoals het logisch denken) gebruiken ze een samenpers-methode (SVD/quantization): ze drukken de informatie samen tot een compacte vorm, zonder de betekenis te verliezen.
Resultaat: Een SkillPack die 90% kleiner is dan het origineel, maar bijna even goed werkt.

4. De "Verkeersregelaar" (Router)

Wat als je SkillPacks hebt voor wiskunde, coderen, en juridisch advies? Je wilt niet dat de robot probeert alles tegelijk te doen, want dan raakt hij in de war.

GraftLLM heeft een slimme verkeersregelaar (een router).
Als je de robot vraagt: "Los deze wiskundepuzzel op", kijkt de regelaar en zegt: "Gebruik de Wiskunde-SkillPack!" en schakelt de andere uit.
Vraag je: "Schrijf een gedicht", dan schakelt hij de Creatieve SkillPack in.
Dit zorgt ervoor dat de robot niet in de war raakt en dat de verschillende vaardigheden niet met elkaar vechten.

Waarom is dit zo belangrijk?

Geen Vergeten: Omdat je de basis van de robot niet aanraakt, vergeet hij nooit zijn oude vaardigheden. Hij kan nieuwe dingen leren zonder dat hij zijn oude kennis kwijtraakt.
Efficiëntie: Je hoeft geen enorme, zware robots te bouwen. Je bouwt kleine, lichte pakketjes die je makkelijk kunt delen en combineren.
Veiligheid: Als je een SkillPack hebt die "giftige" of slechte informatie bevat, kun je die er gewoon weer afhalen. Je kunt de robot ook "ontgiften" door een specifieke SkillPack te verwijderen, zonder de hele robot te moeten herschrijven.
Mix & Match: Je kunt een robot maken die goed is in alles door SkillPacks van verschillende experts (een wiskundige, een coder, een jurist) op één basis-robot te plakken.

Samenvatting in één zin

GraftLLM is een slimme manier om AI-modellen vaardigheden te geven door kleine, geoptimaliseerde "vaardigheids-pakketjes" op hen te plakken, zodat ze alles kunnen leren zonder hun oude kennis te verliezen of zwaar en traag te worden.

Het is alsof je een universele smartphone hebt waar je voor elke taak (rekenen, navigeren, vertalen) een specifieke, lichte app-installatie doet, in plaats van een nieuwe telefoon te kopen voor elke nieuwe functie.

Each language version is independently generated for its own context, not a direct translation.

Titel: Kennisfusie van Grootte Taalmodellen via Modulaire SkillPacks (GraftLLM)

1. Het Probleem

De huidige uitdaging in het onderzoek naar Grootte Taalmodellen (LLM's) ligt in het effectief overdragen van capaciteiten tussen modellen met verschillende architecturen (heterogene modellen). Bestaande methoden kampen met ernstige beperkingen:

Model Merging: Bestaande technieken (zoals Ties-Merging of Task Arithmetic) richten zich voornamelijk op homogene modellen (dezelfde basisarchitectuur) en falen vaak bij heterogene fusie.
Kennisdistillatie (Full Fine-tuning): Het volledig hertrainen van een studentmodel om kennis van een leraar over te nemen, negeert vaak de inherente capaciteiten van het studentmodel en leidt tot catastrofaal vergeten (catastrophic forgetting) van oorspronkelijke vaardigheden.
PEFT (Parameter-Efficient Fine-tuning): Methoden zoals LoRA zijn weliswaar efficiënt, maar hebben moeite om voldoende taalkennis van bronmodellen te absorberen en presteren vaak inferieur aan full fine-tuning.
Conflict en Opslag: Het samenvoegen van meerdere modellen leidt vaak tot parameterconflicten, terwijl het opslaan van meerdere volledige fine-tuned modellen onpraktisch is vanwege de hoge opslagkosten.

2. Methodologie: GraftLLM

De auteurs introduceren GraftLLM, een nieuwe methode die kennis overdraagt via een "grafting"-strategie. In plaats van het hele model te herschrijven, wordt de kennis van een bronmodel opgeslagen als een compacte, modulaire eenheid genaamd een SkillPack, die aan een doelmodel wordt "geënt".

Het proces verloopt als volgt:

Stap 1: Tweestaps Training: Een bronmodel (source) en een doelmodel (target) ondergaan een aanpassingsproces via Supervised Fine-Tuning (SFT) gevolgd door Direct Preference Optimization (DPO).
Stap 2: Delta-berekening: Het verschil in parameters tussen het aangepaste model en het originele doelmodel wordt berekend: $\Delta\theta = \theta^*_{tgt} - \theta_{tgt}$ . Deze delta's bevatten de specifieke taakkennis.
Stap 3: Module-bewuste Adaptieve Compressie (De Kerninnovatie): Om de delta's efficiënt op te slaan en te transfereren, wordt een unieke compressiestrategie toegepast die verschilt per moduletype binnen het transformer-architectuur:
- Embedding & Output Head: Er wordt magnitude pruning toegepast (verwijdering van de kleinste gewichten) om de belangrijkste gewichten te behouden.
- Attention Modules: Vanwege het snel afnemende spectrum van singuliere waarden, wordt Low-Rank Decompositie (SVD) gebruikt om de projectiematrices te comprimeren zonder significant verlies aan representatieve capaciteit.
- MLP Modules: Deze modules zijn gevoelig voor compressie. Er wordt een conservatieve SVD toegepast waarbij alleen de singuliere vectoren met de hoogste energie worden behouden.
- Quantisatie: Om de opslag verder te verkleinen, worden de gecomprimeerde componenten (na pruning of SVD) onderworpen aan mixed-precision quantisatie (bijv. 2-bit, 4-bit, 8-bit), waarbij de precisie adaptief wordt gekozen op basis van het belang van de component.
Stap 4: SkillPack & Routering: Het gecomprimeerde resultaat is de SkillPack. Voor inferentie kan een Router bepalen welke SkillPack (voor welke taak) moet worden geladen. Dit maakt het mogelijk om meerdere vaardigheden dynamisch te activeren zonder ze allemaal permanent in het model te hebben, wat interferentie en vergeten voorkomt.

3. Belangrijkste Bijdragen

GraftLLM Framework: Een nieuwe architectuur voor cross-capability transfer tussen heterogene LLM's die kennis isoleert in modulaire SkillPacks.
Module-bewuste Compressie: Een innovatieve strategie die verschillende compressietechnieken (pruning, SVD, quantisatie) toepast op basis van de specifieke rol en gevoeligheid van elke modelmodule, wat een betere balans biedt tussen compressie en prestaties dan uniforme methoden.
Vergeetvrije Leerprocessen: Door de SkillPacks te kunnen laden en ontladen, ondersteunt de methode forget-free learning. Het doelmodel behoudt zijn oorspronkelijke vaardigheden terwijl het nieuwe vaardigheden "graft" zonder catastrofale vergetelheid.
Heterogene Fusie: De methode lost het probleem op van het samenvoegen van modellen met verschillende structuren (bijv. LLaMA en Qwen), wat voorheen zeer moeilijk was.

4. Resultaten

De auteurs hebben GraftLLM getest in drie hoofdsituaties met indrukwekkende resultaten:

Kennisoverdracht & Compressie: Bij het gieten van kennis van een groot model (Qwen-2.5-72B) naar een kleiner model (LLaMA-3.1-8B) presteerde GraftLLM aanzienlijk beter dan PEFT-methoden (LoRA) en bestaande compressietechnieken, vooral onder DPO-condities waar andere methoden faalden.
Kennisfusie (Heterogeen):
- Expliciete fusie: Op benchmarks zoals MT-Bench en AlpacaEval 2.0 overtrof GraftLLM bestaande methoden (zoals FuseLLM, Ties-Merging, Twin-Merging) aanzienlijk. Het bereikte prestaties vergelijkbaar met veel grotere modellen (zoals Mixtral-8x7B en Qwen-72B) met slechts een 28% toename in parametergrootte.
- Impliciete fusie: Over 10 verschillende benchmarks (wiskunde, codering, redenering) behaalde GraftLLM de hoogste gemiddelde scores, met name in het verminderen van taakconflicten die andere methoden parten spelen.
Vergeetvrije Leerprocessen: In sequentiële leeropdrachten (eerst coderen, dan wiskunde) behield GraftLLM de oorspronkelijke coderingsvaardigheden beter dan Model Grafting of Model Tailor, terwijl het nieuwe wiskundekennis verwierf.
Domein-scheiding: In experimenten met sterk uiteenlopende domeinen (financiën, recht, biomedische wetenschap) slaagde GraftLLM erin om domeinspecifieke SkillPacks te combineren met minimale interferentie, waarbij het bijna 99% van de prestaties behaalde van drie aparte fine-tuned modellen, maar met slechts 30% extra parameters.

5. Betekenis en Impact

GraftLLM biedt een schaalbare en efficiënte oplossing voor de integratie van diverse vaardigheden in LLM's. De belangrijkste implicaties zijn:

Efficiëntie: Het vermindert de opslag- en rekencosts voor het beheer van meerdere gespecialiseerde modellen door ze te comprimeren tot kleine SkillPacks.
Veiligheid en Privacy: Het maakt "unlearning" (het verwijderen van specifieke kennis, zoals toxiciteit of privacygevoelige data) mogelijk door simpelweg de betreffende SkillPack te verwijderen, zonder het basismodel te hoeven herschrijven.
Flexibiliteit: Het stelt onderzoekers en ontwikkelaars in staat om modellen dynamisch aan te passen aan nieuwe taken of domeinen zonder volledige hertraining, wat cruciaal is voor continue leerprocessen in productieomgevingen.

Samenvattend introduceert GraftLLM een paradigmaverschuiving van het monolithische "alles-in-één" model naar een modulaire, plug-and-play benadering van kennisfusie, waarbij de sterktes van bronmodellen worden behouden zonder de nadelen van vergeten of parameterconflicten.