Modular Delta Merging with Orthogonal Constraints: A Scalable Framework for Continual and Reversible Model Composition

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme, slimme robot bouwt die alles kan doen: van het herkennen van katten tot het schrijven van gedichten en het vertalen van talen. In de wereld van kunstmatige intelligentie (AI) noemen we dit een "model".

Het probleem is dat als je deze robot wilt leren een nieuwe taak (bijvoorbeeld "recepten schrijven"), je vaak zijn oude kennis vergeet. Of als je twee robots combineert, raken ze in de war en werken ze slechter. En wat als je later wilt dat de robot een specifieke kennis weer "vergeet" omdat een gebruiker dat vraagt (zoals vereist door privacywetten)? Dat is heel moeilijk.

Deze paper introduceert een slimme oplossing genaamd MDM-OC. Laten we dit uitleggen met een paar alledaagse analogieën.

1. Het Probleem: De Rommelige Werkbank

Stel je voor dat je een meester-timmerman bent (het basis-model). Je hebt een standaard gereedschapskist.

Als je een nieuwe taak leert (bijvoorbeeld het maken van een stoel), maak je een nieuwe set gereedschap aan.
Als je een andere taak leert (een tafel maken), maak je nog een set gereedschap.

In de oude methoden probeerde je al deze gereedschappen in één grote kist te gooien. Het resultaat? De hamers botsten tegen de schroevendraaiers, de schroeven kwamen los en de robot (de timmerman) werd verward. Hij kon de stoel niet meer goed maken terwijl hij de tafel probeerde te bouwen. Dit heet "catastrophic forgetting" (catastrofaal vergeten).

2. De Oplossing: Het "Onafhankelijke Vakje" Systeem

MDM-OC lost dit op door een heel slimme manier te gebruiken om gereedschap op te slaan. In plaats van alles in één grote kist te gooien, gebruikt het orthogonale subruimtes.

De Analogie van de 3D-Ruimte:
Stel je voor dat je een kamer hebt met drie dimensies: links-rechts, voor-achter en boven-onder.

De basis-robot staat in het midden.
De stoel-taak wordt opgeslagen als een beweging die alleen links-rechts gaat.
De tafel-taak wordt opgeslagen als een beweging die alleen voor-achter gaat.
De recept-taak gaat alleen boven-onder.

Omdat deze bewegingen loodrecht op elkaar staan (ze zijn "orthogonaal"), botsen ze nooit! Je kunt de robot de stoel laten maken, en dan direct de tafel, zonder dat de ene beweging de andere verstoort. Ze werken in hun eigen, onafhankelijke ruimte.

3. Hoe werkt het in de praktijk? (De 3 Stappen)

Stap 1: De "Verschil"-Notitie (Delta's)
In plaats van de hele robot opnieuw te bouwen voor elke taak, slaat MDM-OC alleen het verschil op.

Voorbeeld: "Om van basis-robot naar stoel-robot te gaan, moet je alleen de arm 5 cm naar links bewegen." Dat is je "delta" (verschil). Dit is veel minder geheugen nodig dan de hele robot opnieuw opslaan.

Stap 2: Het "Loodrechte" Draaien (Orthogonalisatie)
Als je een nieuwe taak wilt toevoegen, kijkt het systeem: "Hé, deze nieuwe beweging lijkt wel een beetje op de oude."
In plaats van ze te laten botsen, draait het systeem de nieuwe beweging zo dat hij perfect loodrecht op de oude staat.

Voorbeeld: Als de oude taak "links-rechts" ging, zorgt MDM-OC dat de nieuwe taak "voor-achter" gaat, zelfs als de oorspronkelijke idee daar anders was. Zo wordt er nooit een conflict.

Stap 3: Het "Afbreken" (Reversibiliteit)
Dit is het coolste deel. Omdat elke taak in zijn eigen, onafhankelijke richting zit, kun je een taak er weer uit halen alsof je een blok uit een legobouwwerk haalt.

Voorbeeld: Als iemand zegt: "Ik wil dat de robot geen recepten meer kent (omdat ik mijn recepten niet wil delen)", dan haalt MDM-OC gewoon de "boven-onder" beweging weg. De robot blijft perfect stoelen en tafels maken. Hij is niet verward, en hij heeft niets "vergeten" van de andere taken. Dit is cruciaal voor privacywetten (zoals de GDPR).

Waarom is dit belangrijk?

Geen Verwarring: Robots kunnen honderden taken leren zonder dat ze elkaar verstoren.
Privacy & Wetgeving: Als een gebruiker vraagt om zijn data te laten vergeten, kun je de specifieke kennis van die gebruiker "wegdraaien" zonder de hele robot opnieuw te hoeven trainen.
Efficiëntie: Je slaat alleen de kleine verschillen op, niet de hele robot. Dit bespaart enorm veel computergeheugen.

Samenvattend

Stel je voor dat je een muziekbundel hebt.

Oude methode: Je probeert alle nummers door elkaar te spelen op één piano. Het klinkt als een enorme lawaai.
MDM-OC: Je geeft elke muzikant een eigen instrument dat op een andere frequentie speelt. Ze spelen samen een prachtig orkest, maar als je één muzikant wilt stoppen, klinkt de rest nog steeds perfect. En je kunt een nieuwe muzikant toevoegen zonder dat de anderen hun toon veranderen.

Deze paper (MDM-OC) is dus een nieuwe, slimme manier om AI-modellen samen te voegen, te updaten en weer terug te draaien, zodat ze slimmer worden zonder ooit in de war te raken.

Each language version is independently generated for its own context, not a direct translation.

Titel: MDM-OC: Orthogonale Delta-merging voor Schaalbare en Omkeerbare Modelcompositie

1. Het Probleem

In moderne machine learning-deployments moeten modellen continu worden bijgewerkt, samengevoegd en, indien nodig, selectief ongedaan gemaakt (bijvoorbeeld voor naleving van de AVG/GDPR). Bestaande methoden voor modelmerging en continu leren lijden echter onder drie hoofdproblemen:

Taakinterferentie: Het samenvoegen van modellen voor verschillende taken leidt vaak tot conflicten in de parameters, wat de prestaties van individuele taken verslechtert.
Catastrofaal Vergeten: Bij het integreren van nieuwe kennis wordt oude kennis vaak verloren.
Gebrek aan Omkeerbaarheid: Bestaande technieken (zoals gewichtsaveraging of Task Arithmetic) maken het moeilijk om specifieke taken later weer uit een samengevoegd model te verwijderen zonder het hele model opnieuw te trainen. Dit vormt een obstakel voor privacywetgeving en compliance.

2. Methodologie: MDM-OC

De auteurs stellen Modular Delta Merging with Orthogonal Constraints (MDM-OC) voor. Dit is een raamwerk dat modelcompositie formuleert als een projectieprobleem in de ruimte van parameter-delta's.

Kernstappen van de methode:

Delta-representatie: In plaats van volledige modellen te mergen, wordt elk taak-specifiek model ( $\theta_i$ ) voorgesteld als een delta ( $\Delta\theta_i = \theta_i - \theta_{base}$ ) ten opzichte van een gedeelde basis ( $\theta_{base}$ ).
Orthogonale Projectie: Om interferentie te elimineren, worden deze delta's geprojecteerd naar onderling orthogonale deelruimtes. Dit wordt gedaan met de Gram-Schmidt-procedure:
- Elke nieuwe delta wordt orthogonaal gemaakt ten opzichte van alle eerdere delta's.
- Formule: $\Delta\theta^\perp_i = \Delta\theta_i - \sum_{j=1}^{i-1} \text{proj}_{\Delta\theta^\perp_j}(\Delta\theta_i)$ .
- Dit zorgt ervoor dat de parameters voor verschillende taken in onafhankelijke richtingen in de parameter-ruimte bewegen.
Optimalisatie van Merge-coëfficiënten: De bijdrage van elke taak aan het samengevoegde model wordt bepaald door coëfficiënten ( $\alpha_i$ ) die worden geoptimaliseerd via een gradient-based methode (Adam) of CMA-ES om de gezamenlijke validatieverlies over alle taken te minimaliseren.
Continuïteit en Omkeerbaarheid:
- Integratie: Nieuwe taken worden incrementeel toegevoegd door hun delta te projecteren op de nulruimte van de bestaande orthogonale basis.
- Unmerging (Ongedaan maken): Een taak kan algebraïsch worden verwijderd door de bijbehorende orthogonale delta af te trekken: $\theta_{merged}^{-k} = \theta_{merged} - \alpha_k \Delta\theta^\perp_k$ . Dit vereist geen hertraining.
Stabiliteit: Om catastrofaal vergeten te voorkomen tijdens het samenvoegen, worden technieken zoals Elastic Weight Consolidation (EWC) en synthetische replay gebruikt.
Efficiëntie: Voor schaalbaarheid wordt PCA (Principal Component Analysis) gebruikt om de dimensie van de delta's te reduceren, waardoor de complexiteit van $O(N^2)$ naar $O(kN)$ daalt.

3. Belangrijkste Bijdragen

Wiskundig onderbouwde omkeerbaarheid: MDM-OC biedt een algebraïsche methode om modellen te mergen en te unmergen zonder verlies van prestaties, wat cruciaal is voor compliance (bijv. "Right to be Forgotten").
Interferentievrije compositie: Door het forceren van orthogonaliteit in de parameter-delta's, wordt taakinterferentie theoretisch en empirisch geminimaliseerd.
Schaalbaar continu leren: Het raamwerk ondersteunt het toevoegen en verwijderen van modellen in een dynamische omgeving zonder dat een centraal dataset nodig is.
Theoretische garanties: De auteurs bewijzen dat orthogonale projectie de representatieve capaciteit behoudt (span-preserving) en dat numerieke interferentie begrensd is binnen de grenzen van drijvende-kommaberekening.

4. Resultaten

De methode is getest op visuele (CIFAR-100, ImageNet-100) en NLP-benchmarks (AG News, DBpedia, Yahoo Answers) met basismodellen zoals ResNet-50 en BERT-large.

Prestaties: MDM-OC behaalde state-of-the-art resultaten. Op CIFAR-100 bereikte het 78,4% nauwkeurigheid, wat 6,3 procentpunten beter is dan de beste concurrent (TIES-Merging).
Unmerging Fidelity: Bij het selectief verwijderen van een taak was de nauwkeurigheidsdaling (UAD) extreem laag: slechts 1,8% voor visuele taken en 2,3% voor taal-taken. Dit is aanzienlijk beter dan baselines zoals Task Arithmetic (12,3% daling).
Efficiëntie: Het model is memory-efficiënt. De piekgeheugengebruik groeide slechts marginaal (van 2,1 GB naar 8,7 GB bij 50 modellen), terwijl methoden zoals GEM tot 47 GB gebruikten.
Stabiliteit: De methode behoudt positieve backward transfer (verbetering van oude taken door nieuwe kennis) en voorkomt negatieve interferentie zelfs bij zeer vergelijkbare taken.

5. Betekenis en Toekomstperspectief

MDM-OC biedt een fundamentele oplossing voor het bouwen van modulaire en compliant AI-systemen.

Regelgeving: Het maakt het mogelijk om AI-systemen te bouwen die voldoen aan strikte privacywetgeving (zoals de AVG) door specifieke kennis of data-effecten algebraïsch uit een model te verwijderen zonder het hele systeem te hertrainen.
Dynamische Systemen: Het faciliteert federated learning en multi-agent systemen waar modellen continu moeten worden geïntegreerd en aangepast.
Toekomst: Hoewel de methode momenteel een gedeelde basisarchitectuur vereist, biedt het een pad naar universele representatieruimtes en veilige, samenwerkende modelcompositie in gedistribueerde omgevingen.

Kortom, MDM-OC overbrugt de kloof tussen continu leren en composable AI, en biedt een interpreteerbare, schaalbare en wettelijk conforme basis voor dynamisch modelbeheer.

Modular Delta Merging with Orthogonal Constraints: A Scalable Framework for Continual and Reversible Model Composition

1. Het Probleem: De Rommelige Werkbank

2. De Oplossing: Het "Onafhankelijke Vakje" Systeem

3. Hoe werkt het in de praktijk? (De 3 Stappen)

Waarom is dit belangrijk?

Samenvattend

Titel: MDM-OC: Orthogonale Delta-merging voor Schaalbare en Omkeerbare Modelcompositie

1. Het Probleem

2. Methodologie: MDM-OC

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Toekomstperspectief

Meer zoals dit

The Non-Optimality of Scientific Knowledge: Path Dependence, Lock-In, and The Local Minimum Trap

Self-Monitoring Benefits from Structural Integration: Lessons from Metacognition in Continuous-Time Multi-Timescale Agents

GoodPoint: Learning Constructive Scientific Paper Feedback from Author Responses

The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break

When to Forget: A Memory Governance Primitive