Efficient Compositional Multi-tasking for On-device Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een slimme, kleine robot op je telefoon hebt. Deze robot is een "grote taalmodel" (een AI die tekst kan begrijpen en schrijven). Normaal gesproken is deze robot heel goed in één ding: bijvoorbeeld het samenvatten van een lang verhaal. Of misschien is hij gespecialiseerd in het vertalen van teksten.

Maar wat als je hem wilt vragen om twee dingen tegelijk te doen? Bijvoorbeeld: "Samenvat dit lange artikel, maar vertaal de samenvatting direct ook naar het Spaans."

Dit is precies het probleem dat dit paper oplost. Hier is de uitleg, vertaald naar alledaagse taal met een paar leuke vergelijkingen.

1. Het Probleem: De "Eén-Ding-Tegelijk" Robot

Vroeger, als je een robot iets wilde laten doen, moest je hem eerst trainen op dat specifieke ding.

Wil je samenvatten? Dan installeer je een "Samenvatting-appje" (een zogenaamde adapter) op je robot.
Wil je vertalen? Dan installeer je een "Vertaal-appje".

Het probleem is dat je telefoon (je "on-device" apparaat) niet veel ruimte heeft. Je kunt niet voor elke mogelijke combinatie van taken een nieuw, groot appje installeren.

De oude manier: Je laat de robot eerst samenvatten, slaat dat op, en laat hem daarna dat resultaat vertalen. Dit is als een kok die eerst een soep maakt, de soep in een bak doet, en dan pas de soep naar een ander land stuurt om te vertalen. Het duurt lang en kost veel energie.
De andere oude manier: Je probeert de "Samenvatting-app" en de "Vertaal-app" simpelweg door elkaar te gooien (zoals twee soeprecepten mengen). Vaak werkt dit niet goed; de robot wordt verward en maakt een rommelige samenvatting die niet in het juiste taal is.

2. De Oplossing: "Leerzame Kalibratie" (Learnable Calibration)

De auteurs van dit paper hebben een slimme truc bedacht die ze "Learnable Calibration" noemen. Laten we dit vergelijken met een muziekband.

Stel je hebt twee muzikanten:

Muzikant A is een meester in het spelen van klassieke muziek (Samenvatten).
Muzikant B is een meester in het spelen van jazz (Vertalen).

Je wilt nu een nummer dat beide stijlen tegelijk heeft.

De slechte manier: Je laat ze gewoon tegelijk spelen. Het klinkt als lawaai.
De dure manier: Je zoekt een nieuwe muzikant die beide stijlen perfect beheerst. Maar die nieuwe muzikant is groot, duur en neemt veel ruimte in op je podium (je telefoon).
De slimme manier (deze paper): Je neemt de twee bestaande muzikanten (A en B) en geeft ze een kleine, slimme dirigent (de kalibratie).

Die dirigent is heel klein (past op je telefoon) en heeft een heel specifieke taak: hij zegt tegen Muzikant A: "Speel net iets zachter en verander je toon" en tegen Muzikant B: "Speel net iets ritmischer".
Door deze kleine aanpassingen kunnen de twee bestaande muzikanten samenwerken om precies dat ene nummer te spelen dat je wilt, zonder dat je een nieuwe, enorme muzikant nodig hebt.

3. Waarom is dit belangrijk?

Snelheid: De robot doet het in één keer (één "inference pass"). Geen wachten tussen samenvatten en vertalen.
Ruimte: Je hoeft geen nieuwe, grote bestanden te downloaden. Je gebruikt alleen de kleine "dirigenten" (slechts een paar kilobytes extra) die je bestaande apps aansturen.
Kwaliteit: Het werkt veel beter dan het simpelweg mengen van de apps. De robot begrijpt dat hij twee taken tegelijk moet doen, niet één na de ander.

4. De Test: Een Nieuwe Speelplaats

Om te bewijzen dat dit werkt, hebben de onderzoekers een nieuwe "speelplaats" (een benchmark) gemaakt. Ze hebben vier soorten taken bedacht die mensen echt nodig hebben:

Samenvatten + Vertalen (bijv. een lang nieuwsartikel samenvatten in het Frans).
Samenvatten + Toon aanpassen (bijv. een zakelijke samenvatting maken die klinkt als een grappig grapje).
Antwoord geven + Vertalen (bijv. een berichtje beantwoorden in het Duits).
Antwoord geven + Toon aanpassen (bijv. een antwoord geven dat heel beleefd klinkt).

Conclusie

Kortom: Dit paper leert ons hoe we slimme telefoons slimmer kunnen maken zonder ze zwaarder te maken. In plaats van een zware, nieuwe robot te bouwen voor elke combinatie van taken, gebruiken we een slimme, kleine "tuner" die onze bestaande slimme robots precies laat doen wat we willen: meerdere dingen tegelijk, snel en op de juiste manier.

Het is alsof je je oude auto niet hoeft te vervangen voor een nieuwe vrachtwagen, maar gewoon een slimme GPS-installatie toevoegt die je precies de beste route laat nemen, zelfs als je meerdere bestemmingen tegelijk hebt.

Each language version is independently generated for its own context, not a direct translation.

Titel: Efficiënte Compositional Multi-tasking voor On-device Large Language Models

Auteurs: Ondrej Bohdal, Mete Ozay, Jijoong Moon, Kyeng-Hun Lee, Hyeonmok Ko, Umberto Michieli (Samsung R&D Institute UK & Samsung Research).

1. Het Probleem

Grote Taalmodellen (LLMs) worden steeds vaker op lokaal apparatuur (zoals smartphones) ingezet om privacy te waarborgen en latentie te verminderen. Hoewel LLMs uitstekend zijn in het uitvoeren van één taak, ontbreekt het huidige onderzoek en de bestaande methoden aan de capaciteit om compositional multi-tasking efficiënt uit te voeren op deze beperkte apparaten.

Compositional Multi-tasking: Dit verwijst naar scenario's waarbij één invoer gelijktijdig meerdere taken vereist. Bijvoorbeeld: een lange tekst samenvatten én die samenvatting direct vertalen naar een andere taal, of een antwoord genereren in een specifieke toon (bijv. formeel).
Beperkingen van bestaande methoden:
- Meerdere inferenties: Een inefficiënte aanpak waarbij eerst taak A wordt uitgevoerd en het resultaat als invoer voor taak B wordt gebruikt. Dit vereist meerdere inferentie-passes, wat te veel rekenkracht en tijd kost voor mobiele apparaten.
- Model Merging: Bestaande technieken om verschillende taak-specifieke adapters (zoals LoRA) te samenvoegen (bijv. TIES, DARE, Linear Merging) zijn getest op scenario's waarbij elke testvoorbeeld slechts één taak bevat. Deze methoden falen vaak wanneer ze worden geconfronteerd met gelijktijdige, gecombineerde taken.
- Opslagbeperkingen: Het trainen van een volledig nieuwe, gezamenlijke adapter ("joint-expert") voor elke mogelijke taakcombinatie is onpraktisch vanwege de beperkte opslagruimte op mobiele apparaten.

2. Methodologie

De auteurs stellen een nieuwe methode voor genaamd Learnable Calibration (LC), ontworpen om hoge prestaties te bereiken met één inferentie-pass en minimale extra opslag.

A. De Benchmark

Om dit nieuwe probleem te bestuderen, hebben de auteurs een benchmark ontwikkeld met vier praktische compositional taken:

Samenvatting + Vertaling: (Engels naar Spaans, Frans of Duits).
Samenvatting + Toonaanpassing: (Professioneel, informeel, grappig, of parafraseren).
Antwoordgeneratie + Vertaling.
Antwoordgeneratie + Toonaanpassing.
De datasets zijn gebaseerd op DialogSum en Synthetic Persona Chat, waarbij de ground-truth outputs zijn aangepast via gespecialiseerde modellen.

B. Learnable Calibration (LC)

De kern van de oplossing is het gebruik van reeds bestaande, taak-specifieke adapters (LoRAs) die op het apparaat aanwezig zijn, en het toevoegen van een zeer klein aantal extra parameters om deze te "kalibreren" voor de gecombineerde taak.

Basis: Er wordt uitgegaan van een gefuseerde versie van de individuele LoRAs (bijv. een lineair gemiddelde van de LoRA voor samenvatting en de LoRA voor vertaling).
Kalibratie: In plaats van een nieuwe adapter te trainen, worden er extra parameters ( $P$ $P$ ) toegevoegd die de gefuseerde output corrigeren. Er worden twee varianten gepresenteerd:
1. LC (Variatie #1): Lerende bias-vector ( $p$ ) die per kolom wordt toegepast op de gefuseerde update-matrix. Dit is de meest compacte variant.
2. LC++ (Variatie #2): Lerende lage-rang matrices ( $P_2 P_1$ ) die fungeren als een extra kalibratie-LoRA bovenop de gefuseerde adapters. Dit biedt meer expressiviteit.
Training: De kalibratieparameters worden getraind op de server (waar data en rekenkracht beschikbaar zijn) met compositional data. Op het apparaat zelf worden alleen de kleine kalibratieparameters geladen en toegepast.
Efficiëntie: De methode vereist slechts één inferentie-pass en voegt minder dan 0,5 MB opslag toe (ongeveer 0,08% - 0,56% van de grootte van een volledige joint-expert adapter).

3. Belangrijkste Bijdragen

Nieuwe Uitdaging: Het introduceren van het probleem van compositional multi-tasking specifiek voor on-device LLMs, een tot nu toe onderzochte maar cruciale use-case.
Benchmark: De ontwikkeling van een uitgebreide benchmark met 14 sub-taken (combinaties van samenvatting/antwoorden met vertaling/toon) om methoden te evalueren.
Learnable Calibration: Een nieuwe, efficiënte methode die de prestaties van inefficiënte baselines (zoals multi-step pipelines) benadert of overtreft, maar met een fractie van de reken- en opslageisen.
Empirisch Bewijs: Uitgebreide experimenten tonen aan dat bestaande merging-strategieën (zoals TIES, DARE, LoraHub) ongeschikt zijn voor simultane multi-tasking, terwijl LC dit probleem effectief oplost.

4. Resultaten

De experimenten zijn uitgevoerd op kleine, mobiele-vriendelijke modellen (LLaMA 3.2 1B, Qwen2.5 1.5B, StableLM2 1.6B).

Prestaties:
- Bestaande merging-methoden (zoals Lineaire Merging, TIES, DARE) presteerden nauwelijks beter dan "zero-shot" of het gebruik van slechts één taak-adapter. Ze faalden vaak in het uitvoeren van beide taken tegelijk.
- Learnable Calibration++ behaalde de beste resultaten, met LLM-Judge scores van rond de 65% voor samenvatting + vertaling, wat vergelijkbaar is met de inefficiënte "Joint-expert LoRA" (die ~50% haalde) en de "Multi-step LoRA" (die ~73% haalde), maar dan met één inferentie-pass.
- LC++ overtrof de inefficiënte baselines in sommige scenario's en deed het aanzienlijk beter dan alle snelle baselines.
Efficiëntie:
- Opslag: LC++ voegt slechts 0,32 MB opslag toe, vergeleken met ~57 MB voor een Joint-expert LoRA.
- Inferentie: LC vereist 1 inferentie-pass, terwijl de multi-step baseline 2 passes vereist.
Ablatie-studies:
- Het gebruik van bestaande adapters als startpunt is cruciaal; zonder deze (en alleen het trainen van kalibratieparameters) daalt de prestatie aanzienlijk.
- Het delen van kalibratieparameters over verschillende taakcombinaties leidt tot een lichte prestatiedaling, maar blijft superieur aan de meeste baselines en bespaart nog meer opslag.

5. Betekenis en Conclusie

Dit werk is van groot belang voor de praktische toepassing van AI op mobiele apparaten. Het lost het dilemma op tussen kwaliteit (het uitvoeren van complexe, gecombineerde taken) en efficiëntie (beperkte batterij, opslag en rekenkracht).

Toepassing: De methode maakt het mogelijk dat gebruikers op hun telefoon complexe instructies kunnen geven, zoals "Vat dit gesprek samen en vertaal het naar het Spaans in een professionele toon", zonder dat het apparaat traag wordt of extra ruimte nodig heeft voor nieuwe modellen.
Veiligheid: De auteurs wijzen ook op ethische overwegingen, zoals het risico dat veiligheidsmechanismen (safeguards) verzwakken bij het samenvoegen van modellen, en pleiten voor verder onderzoek naar robuuste beveiliging in deze context.

Kortom, Learnable Calibration biedt een schaalbare en praktische oplossing om de functionaliteit van on-device LLMs uit te breiden naar complexe, real-world multi-tasking scenario's.