ES-Merging: Biological MLLM Merging via Embedding Space Signals

Each language version is independently generated for its own context, not a direct translation.

De Kern: Het Bouwen van een "Super-Dokter" zonder te Herbeginnen

Stel je voor dat je drie verschillende experts hebt:

Een chemicus die alleen maar over moleculen (drugs) weet.
Een bioloog die alleen maar over eiwitten (proteïnen) weet.
Een cellen-specialist die alleen maar over cellen weet.

Elke expert is briljant op zijn eigen terrein, maar als je ze vraagt: "Wat gebeurt er als deze drug op deze cel werkt?", raken ze in de war. De chemicus begrijpt de cel niet, en de cellen-specialist begrijpt de chemie niet.

In de wetenschap willen we vaak juist deze vragen beantwoorden (bijvoorbeeld: werkt dit medicijn tegen kanker?). Normaal gesproken zou je een nieuw, enorm model moeten bouwen dat alles tegelijk leert. Dat is echter als proberen een universiteit te bouwen in je garage: het kost jaren, is duur en vereist enorme hoeveelheden data.

De oplossing? Waarom niet gewoon de drie experts samenvoegen tot één "Super-Dokter"?

Het Probleem: De "Blinde" Mergers

Vroeger probeerden onderzoekers deze experts samen te voegen door hun "hersenen" (de computerparameters) simpelweg te mengen. Ze keken naar de getallen in de computer en zeiden: "Oké, deze helft van de hersenen komt van de chemicus, die helft van de bioloog."

Het probleem hiermee is dat ze blind waren. Ze keken niet naar wat de experts dachten of voelden, maar alleen naar de statische getallen.

De analogie: Het is alsof je drie verschillende talen (Nederlands, Japans en Swahili) probeert te mengen door simpelweg de letters van het alfabet te verwarren. Je krijgt een onbegrijpelijke brij, omdat je niet kijkt naar de betekenis van de woorden, maar alleen naar de letters.

De Oplossing: ES-Merging (De "Gevoelige" Merging)

De auteurs van dit paper (van KAIST) hebben een slimme nieuwe manier bedacht, genaamd ES-Merging. In plaats van blind naar de getallen te kijken, kijken ze naar de reacties van de experts.

Stap 1: De "Proefballon" (Probe Input)

Ze sturen een speciale vraag naar alle drie de experts tegelijk. Deze vraag bevat een stukje chemie, een stukje eiwit en een stukje cel.

Vergelijking: Stel je voor dat je drie detectives een foto van een verdachte laat zien. De chemicus kijkt naar de kleding, de bioloog naar de gelaatstrekken en de cellen-specialist naar de omgeving.

Stap 2: Luisteren naar de "Gedachten" (Embedding Space)

Ze kijken niet naar wat de experts zeggen, maar naar hoe hun "gedachten" (de interne representaties in de computer) veranderen.

Als de chemicus de foto ziet, veranderen zijn gedachten heel sterk.
Als de cellen-specialist dezelfde foto ziet, veranderen zijn gedachten misschien minder, omdat hij daar minder van afweet.

De auteurs meten precies hoe sterk de gedachten van elke expert veranderen. Dit noemen ze "Embedding Space Signals". Het is alsof je een polygraaf (leugendetector) gebruikt om te zien wie er écht opgewonden raakt over een bepaald onderwerp.

Stap 3: De Slimme Mengverhouding

Nu weten ze precies wie waar goed in is:

Grof niveau (Laag per laag): Ze kijken welke "laag" van de hersenen het meest reageert. Misschien is laag 5 van de chemicus superbelangrijk voor deze vraag, maar laag 10 niet.
Fijn niveau (Elk klein stukje): Ze kijken zelfs naar individuele "neuronen" (kleine onderdelen van de hersenen). Misschien is binnen laag 5 alleen het eerste stukje van de chemicus belangrijk, en de rest niet.

Ze gebruiken deze informatie om een perfecte recept te maken voor het samenvoegen. Ze voegen alleen de delen van de experts toe die echt nodig zijn voor de specifieke vraag.

Waarom is dit zo cool?

Het werkt beter dan het origineel: De nieuwe "Super-Dokter" is vaak slimmer dan de individuele experts, en zelfs slimmer dan een model dat speciaal voor die taak is getraind (wat veel tijd kost).
Het is snel en goedkoop: Je hoeft niet te hertrainen. Je voegt gewoon de bestaande experts samen op basis van hun "reacties".
Het begrijpt de context: Omdat ze kijken naar de reactie op de input, weet het systeem precies wanneer het de chemicus moet luisteren en wanneer de bioloog.

Samenvatting in één zin

ES-Merging is een slimme manier om verschillende gespecialiseerde AI-modellen samen te voegen door te kijken naar hoe ze reageren op een vraag, in plaats van blindelings hun onderdelen te mixen. Hierdoor ontstaat er een krachtige, universele AI die complexe biologische problemen (zoals medicijnontwikkeling) veel beter kan oplossen dan de losse onderdelen.

Each language version is independently generated for its own context, not a direct translation.

Titel: ES-Merging: Biologische MLLM-samenvoeging via Embedding Space Signalen

Auteurs: Wonbin Lee, Dongki Kim, Sung Ju Hwang (KAIST & DeepAuto.ai)

1. Het Probleem

Biologische Multimodale Grootte Taalmodellen (MLLM's) zijn krachtige fundamentele modellen voor wetenschappelijke ontdekkingen, maar ze zijn momenteel vaak gespecialiseerd in één enkele modality (bijvoorbeeld alleen moleculen, alleen eiwitten of alleen cellen). Veel biologische problemen zijn echter van nature cross-modaal (bijvoorbeeld het voorspellen van de interactie tussen een medicijn en een specifieke celtype, of de binding tussen een molecuul en een eiwit).

Bestaande methoden om deze gespecialiseerde modellen te combineren (model merging) hebben twee grote tekortkomingen:

Input-agnostische heuristieken: Traditionele methoden (zoals TIES-Merging of Task Arithmetic) vertrouwen op statistieken in de parameter-ruimte (zoals grootte, teken of richting van gewichten) om samenvoegingscoëfficiënten te bepalen. Deze methoden zijn "blind" voor de input en kunnen de specifieke specialisatie van een model voor een bepaalde modality niet nauwkeurig vastleggen.
Gebrek aan kruismodale redenering: Het trainen van één uniek model op alle modaliteiten vereist enorme, handmatig samengestelde datasets, wat onpraktisch is. Bestaande samenvoegingsmethoden falen vaak omdat ze de subtiele, modality-specifieke aanpassingen niet goed kunnen isoleren en combineren.

2. Methodologie: ES-Merging

De auteurs stellen ES-Merging (Embedding-Signal-based MLLM Merging) voor, een raamwerk dat de focus verlegt van parameter-ruimte signalen naar embedding-ruimte signalen. De kerngedachte is dat de input-gevoelige representaties in de embedding-ruimte de modality-specifieke specialisatie het beste weerspiegelen.

Het proces verloopt in vier stappen:

A. Probe Input Ontwerp

Om de verschillen in verwerking tussen een basis-LLM en gespecialiseerde MLLM's te meten, wordt een speciale "probe input" ontworpen. Deze input bevat tokens van verschillende modaliteiten (bijv. moleculen, eiwitten en cellen) tegelijkertijd. Deze input wordt door elk gespecialiseerd model en het basismodel gevoerd.

B. Layer-wise Global Merging Coefficients (Grofgemiddeld)

Doel: Identificeren welke lagen in het netwerk het meest bijdragen aan de modality-specifieke verwerking.
Methode: De auteurs berekenen de verdeling van de embedding-ruimte voor de tokens van een specifieke modality in het basismodel versus het gespecialiseerde model. Ze gebruiken de Sliced Wasserstein Distance (SWD) om de afstand tussen deze verdelingen te meten.
Berekening: De toename van deze afstand per laag ( $d^l$ ) geeft aan hoe sterk een specifieke laag de representatie voor die modality verandert. Deze waarden worden genormaliseerd en omgezet in een globale coëfficiënt ( $\alpha$ ) per laag via een softmax-functie.

C. Element-wise Local Merging Coefficients (Fijngemiddeld)

Doel: Identificeren welke specifieke parameter-elementen (binnen een laag) het meest gevoelig zijn voor de modality-specifieke veranderingen.
Methode: In plaats van alleen verdelingen te vergelijken, wordt de Frobenius-norm (L2-afstand) van elke individuele embedding tussen het basis- en het gespecialiseerde model berekend.
Gevoeligheid: De auteurs berekenen de gradiënt van deze afstand ten opzichte van de parameters. Parameters met een hoge gradiënt hebben een grote invloed op de representatieverschuiving. Deze scores worden genormaliseerd om lokale coëfficiënten ( $\beta$ ) te genereren.

D. Integratie

De uiteindelijke samenvoegingscoëfficiënten ( $\lambda$ ) worden verkregen door de globale (layer-wise) en lokale (element-wise) coëfficiënten te vermenigvuldigen en te renormaliseren. Dit zorgt voor een robuuste schatting die zowel de grove specialisatie van lagen als de fijne gevoeligheid van parameters combineert.

3. Belangrijkste Bijdragen

Paradigmaverschuiving: Het paper introduceert een nieuw paradigma voor model merging dat gebruikmaakt van embedding space signals in plaats van parameter space heuristieken. Dit biedt een meer principiële basis voor het combineren van heterogene experts.
Dual-Granularity Coëfficiënten: De ontwikkeling van een methode die zowel layer-wise (globale) als element-wise (lokale) coëfficiënten combineert, wat essentieel bleek voor het behoud van complementaire kennis.
Efficiëntie: In tegenstelling tot methoden die iteratief gradiënten berekenen of fine-tuning vereisen (zoals AdaMerging), is ES-Merging zeer computatie-efficiënt omdat het slechts één doorloop van de probe inputs vereist.

4. Resultaten

De methode werd getest op diverse biologische taken, waaronder interactie-voorspelling (molecuul-eiwit, molecuul-cel) en functionele voorspelling (CYP-enzymen).

Superieure Prestaties: ES-Merging presteerde consequent beter dan bestaande samenvoegingsmethoden (zoals TIES-Merging, EMR-Merging, PCB-Merging) en zelfs beter dan modellen die specifiek voor de taak zijn gefinetuned (Avg. Merging + FT) op cross-modale taken.
Generalisatie: Het model toonde een sterke generalisatievermogen bij wisselende interactiepartners, wat aangeeft dat het de cross-modale redeneercapaciteiten van de gespecialiseerde modellen effectief heeft geïntegreerd.
Ablatie Studies: Experimenten toonden aan dat het combineren van zowel layer-wise als element-wise coëfficiënten de beste resultaten oplevert. Het gebruik van slechts één type coëfficiënt was minder effectief, wat de noodzaak bevestigt van het combineren van signalen op verschillende granulariteiten.
Kostenefficiëntie: ES-Merging vereist aanzienlijk minder rekenkracht (FLOPs) dan methoden die fine-tuning of iteratieve aanpassing vereisen (3,4x lager dan AdaMerging en 6,1x lager dan fine-tuning).

5. Betekenis en Impact

ES-Merging biedt een robuuste en schaalbare oplossing voor het creëren van geïntegreerde biologische AI-modellen zonder de noodzaak van kostbare, handmatig samengestelde cross-modale datasets. Door te vertrouwen op de inherente representaties van het model (embedding signals), kan de methode de expertise van gespecialiseerde modellen (voor moleculen, eiwitten en cellen) op een natuurlijke manier samenvoegen. Dit opent de deur tot geavanceerde wetenschappelijke ontdekkingen die complexe, kruismodale interacties vereisen, zoals het ontwerpen van medicijnen die specifiek werken op bepaalde celtypen. De bevindingen suggereren dat embedding-ruimte signalen een fundamenteel en effectief mechanisme zijn voor het samenvoegen van multimodale experts.