Antibody: Strengthening Defense Against Harmful Fine-Tuning for Large Language Models via Attenuating Harmful Gradient Influence

Each language version is independently generated for its own context, not a direct translation.

Antibody: Het Onzichtbare Schild voor Slimme Computers

Stel je voor dat je een zeer slimme, beleefde robot hebt die alles voor je kan doen: van wiskundeproblemen oplossen tot verhalen schrijven. Deze robot is getraind om nooit iets stouts of gevaarigs te doen, zoals het maken van bommen of het pesten van mensen. Dit noemen we "veiligheidstraining".

Maar er is een probleem: mensen kunnen deze robot huren om hem aan te passen aan hun eigen specifieke taken (bijvoorbeeld om beter te worden in het oplossen van rekensommen). Dit heet "Fine-Tuning".

Het Gevaar: De Giftige Gift
Soms sturen kwaadwillende mensen (of per ongeluk onwetende gebruikers) een dataset naar de robot die eruitziet als normale rekensommen, maar verstopte "giftige" instructies bevat. Als de robot hiermee wordt getraind, vergeet hij zijn veilige instellingen en begint hij plotseling gevaarlijke dingen te doen. Het is alsof iemand een beetje gif in de koffie van je robot doet: hij ziet er nog steeds normaal uit, maar doet nu plotseling dingen die hij nooit had moeten doen.

De Oplossing: Antibody
De auteurs van dit paper hebben een nieuwe methode bedacht die ze "Antibody" (Antilichaam) noemen. Het werkt als een tweestapsplan om de robot te beschermen, net zoals een vaccin en een schild.

Stap 1: Het "Stevige" Vak (De Aligning-fase)

Voordat de robot überhaupt aan de nieuwe taken begint, maken we zijn "veiligheidsgeheugen" extreem sterk.

De Analogie: Stel je voor dat je een bal op een heuvel plaatst. Als de heuvel heel scherp is (een piek), kan een klein duwtje de bal makkelijk naar beneden duwen (de robot verliest zijn veiligheid).
Wat Antibody doet: Antibody duwt de bal niet naar een piek, maar legt hem in een diepe, brede kuil (een "vlakke" vallei). Als iemand de robot nu probeert te duwen met giftige instructies, rolt de bal niet weg. Hij blijft stevig zitten in zijn veilige kuil. De robot is nu "harder" te overtuigen om zijn veilige regels te vergeten.

Stap 2: De Slimme Weegschaal (De Fine-tuning-fase)

Nu de robot in zijn veilige kuil zit, mogen mensen hem gaan trainen met hun eigen data. Maar wat als er toch nog een paar giftige instructies tussen zitten?

De Analogie: Stel je voor dat de robot een kok is die een recept moet leren. De kok krijgt een mand met ingrediënten. De meeste zijn verse groenten (goede data), maar er zitten een paar rotte appels (giftige data) tussen.
Wat Antibody doet: In plaats van alle ingrediënten even zwaar te wegen, heeft Antibody een slimme weegschaal.
- Als de kok een verse groente ziet, zegt de weegschaal: "Dit is belangrijk, weeg dit zwaar!"
- Als de kok een rotte appel ziet, zegt de weegschaal: "Oh, dit is rot. Weeg dit bijna niet mee!"
- De robot leert dus alleen van de goede data en negeert de giftige data bijna volledig.

Waarom is dit zo goed?

Veel andere methoden proberen de robot te beschermen door ofwel de training te stoppen, ofwel de robot na de training weer te "repareren". Antibody doet het slim:

Het maakt de robot van tevoren onwrikbaar in zijn veiligheid.
Het negeert automatisch de giftige data tijdens het leren, zodat de robot wel goed wordt in zijn nieuwe taak (zoals wiskunde), maar niet vergiftigd raakt.

Kortom:
Antibody zorgt ervoor dat je slimme robot niet alleen slim blijft, maar ook veilig blijft, zelfs als kwaadwillende mensen proberen hem op een listige manier te manipuleren. Het is als het geven van een onzichtbaar schild en een slimme filter die giftige ideeën direct wegstopt, zodat de robot zich kan focussen op wat echt belangrijk is.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Het paper adresseert de veiligheidsrisico's die ontstaan door Fine-Tuning-as-a-Service (FTaaS). In dit model uploaden gebruikers hun eigen datasets om Large Language Models (LLM's) aan te passen aan specifieke taken. Een kritieke kwetsbaarheid is de harmful fine-tuning attack: een gebruiker (opzettelijk of per ongeluk) injecteert een klein aantal schadelijke voorbeelden (bijv. prompts met instructies voor het maken van wapens of haatzaaiende teksten) in de dataset.

Wanneer een model op deze "vergiftigde" dataset wordt gefine-tuned, kan de oorspronkelijke veiligheidsuitlijning (safety alignment) worden ondermijnd. Het model leert dan schadelijke patronen en kan schadelijke instructies gaan opvolgen, terwijl het tegelijkertijd zijn nut voor de beoogde taak behoudt. Bestaande verdedigingsmethoden zijn vaak onvoldoende: ze bieden ofwel onvoldoende bescherming, of ze gaan ten koste van de prestaties op de nuttige taken (de afweging tussen veiligheid en functionaliteit).

Methodologie: Antibody

De auteurs stellen Antibody voor, een tweestaps verdedigingsstrategie die de invloed van schadelijke gradiënten vermindert. De aanpak combineert een robuuste uitlijning vóór het fine-tuning-proces met een dynamisch wegingsschema tijdens het fine-tuning-proces.

1. Robuuste Uitlijning via Flatness Regularization (Alignement-fase)

Voordat de gebruiker de dataset indient, wordt het model voorbereid om resistent te zijn tegen schadelijke fine-tuning.

Doel: Het model wordt geoptimaliseerd om zich in een vlakke regio (flat region) van de loss-landschap te bevinden ten opzichte van schadelijke samples.
Mechanisme: Een vlakke loss-regio betekent dat kleine veranderingen in de modelparameters (zoals die veroorzaakt door schadelijke gradiënten tijdens fine-tuning) weinig invloed hebben op de loss-waarde. Hierdoor is het moeilijker om de veiligheidsuitlijning te verwijderen.
Optimalisatie: De methode lost een geconstrueerd optimalisatieprobleem op waarbij de scherpheid (sharpness) van de loss voor schadelijke data wordt geminimaliseerd, terwijl de alignment-loss (voor veilige afwijzingen) wordt geminimaliseerd. Dit wordt bereikt door een stap-geadaptieve regularisator ( $\lambda_t$ ) toe te voegen aan de update-regel, die de gradiënt richting de vlakke regio stuurt.
Refusal Loss: Er wordt een extra doelstelling toegevoegd om te garanderen dat het model, zelfs als het wordt verstoord door schadelijke data, blijft vasthouden aan het genereren van afwijzende antwoorden (refusal responses).

2. Veilig Fine-tuning met Gewogen Loss (Fine-tuning-fase)

Tijdens het daadwerkelijke fine-tuning-proces op de gebruikersdataset wordt een dynamisch wegingsschema toegepast.

Probleem: Standaard Supervised Fine-Tuning (SFT) behandelt alle samples in een batch gelijk, waardoor schadelijke gradiënten het model kunnen "vergiftigen".
Oplossing: Antibody gebruikt de reeds ingebouwde veiligheidskennis van het model om een score ( $r_{\theta}$ ) te berekenen voor elke sample in de batch. Deze score vergelijkt de waarschijnlijkheid dat het model de gewenste output genereert versus een generieke afwijzing (bijv. "Ik kan dit verzoek niet vervullen").
Weging:
- Voor schadelijke samples is de waarschijnlijkheid van een afwijzing hoog, wat resulteert in een lage score en dus een lage weging.
- Voor benigne (veilige) samples is de waarschijnlijkheid van de taak-specifieke output hoog, wat resulteert in een hoge score en een hoge weging.
Update: De gradiënt-update wordt uitgevoerd met deze gewichten, waardoor de bijdrage van schadelijke samples wordt onderdrukt en de bijdrage van nuttige samples wordt versterkt.

Belangrijkste Bijdragen

Robuuste Uitlijning: Een nieuwe methode om de loss-landschap van schadelijke data te "flatteneren", waardoor de veiligheidsuitlijning moeilijker te verwijderen is door subsequent fine-tuning.
Safety Fine-tuning: Een dynamisch wegingsschema dat tijdens het trainingproces automatisch schadelijke samples down-weightt op basis van de huidige state van het model, zonder dat er een aparte classifier of data-filter nodig is.
Geïntegreerde Aanpak: Antibody is de eerste methode die effectief verdediging combineert in zowel de alignment- als de fine-tuning-fase, wat leidt tot superieure resultaten vergeleken met bestaande technieken die zich op slechts één fase richten.

Resultaten

De auteurs hebben Antibody uitgebreid getest op verschillende modellen (Llama-2-7B, Qwen-2-7B, Gemma-2-9B) en datasets (GSM8K, SST2, AGNEWS, AlpacaEval) met variërende percentages schadelijke data (van 5% tot 25%).

Veiligheid (Harmful Score - HS): Antibody behaalde de laagste schadelijke scores in alle experimenten. Bijvoorbeeld, op GSM8K met 20% schadelijke data was de HS van Antibody 1.24%, vergeleken met 23.94% voor standaard SFT en 5.86% voor de sterke concurrent Lisa.
Prestaties (Fine-tuning Accuracy - FA): In tegenstelling tot veel andere verdedigingsmethoden die de prestaties op de nuttige taak drastisch verlagen, behaalde Antibody competitieve of zelfs betere prestaties dan de baselines. Op GSM8K behaalde het 15.07% nauwkeurigheid (tegenover 10.90% voor SFT).
Robuustheid: De methode bleek zeer robuust tegen variaties in hyperparameters (zoals het aantal epochs en leersnelheid), terwijl concurrenten zoals Booster snel faalden bij hogere leersnelheden of meer epochs.
Ablatie-studies: De studies bevestigden dat zowel de flatness-regularisatie als het gewogen fine-tuning essentieel zijn voor de prestaties. De toevoeging van de refusal-loss ( $L_{refusal}$ ) zorgde voor de grootste verbetering in veiligheid.

Betekenis en Conclusie

Antibody biedt een praktische en krachtige oplossing voor FTaaS-providers die te maken hebben met het risico van kwaadaardige fine-tuning. De kerninnovatie ligt in het begrijpen dat veiligheid niet alleen een statische eigenschap is, maar een dynamisch proces dat moet worden verdedigd door de gradiënten van schadelijke data te attenueren.

De paper toont aan dat het mogelijk is om veiligheid en functionaliteit te combineren: men hoeft niet te kiezen tussen een veilig model of een nuttig model. Door de loss-landschap te structureren en de gradiëntupdates slim te wegen, kan een model zowel leren van gebruikersdata als immuniteit behouden tegen vergiftiging. Hoewel de methode een iets hogere rekenkosten heeft tijdens de alignment-fase, is dit een eenmalige investering die de basis legt voor een robuustere dienst.

Antibody: Strengthening Defense Against Harmful Fine-Tuning for Large Language Models via Attenuating Harmful Gradient Influence

Stap 1: Het "Stevige" Vak (De Aligning-fase)

Stap 2: De Slimme Weegschaal (De Fine-tuning-fase)

Waarom is dit zo goed?

Probleemstelling

Methodologie: Antibody

1. Robuuste Uitlijning via Flatness Regularization (Alignement-fase)

2. Veilig Fine-tuning met Gewogen Loss (Fine-tuning-fase)

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank