Characterizing Memorization in Diffusion Language Models: Generalized Extraction and Sampling Effects

Each language version is independently generated for its own context, not a direct translation.

Samenvatting: Hoe "geheugen" werkt in nieuwe taalmodellen

Stel je voor dat je twee verschillende soorten kunstenaars hebt die teksten schrijven. De ene is een traditionele schrijver (de "Autoregressive" modellen, of ARMs) en de andere is een restaurator (de nieuwe "Diffusion" modellen, of DLMs).

Deze wetenschappers van de Universiteit van Aalborg hebben onderzocht hoe goed deze kunstenaars hun "oefenmateriaal" (de data waarmee ze zijn getraind) onthouden en soms zelfs letterlijk overnemen. Dat is belangrijk, want als een model een privé-e-mailadres of telefoonnummer van iemand uit zijn training herhaalt, is dat een privacy-risico.

Hier is wat ze hebben ontdekt, vertaald in alledaags taalgebruik:

1. De twee manieren van werken

De Traditionele Schrijver (ARM): Deze schrijft woord voor woord, van links naar rechts. Hij kijkt alleen naar wat hij al heeft geschreven om het volgende woord te kiezen. Het is als het invullen van een kruiswoordraadsel waarbij je alleen de vakjes links mag gebruiken om het volgende woord te raden.
De Restaurator (DLM): Deze werkt anders. Stel je voor dat je een schilderij hebt dat volledig met witte vlekken (maskers) is bedekt. De restaurator kijkt naar het hele schilderij tegelijk en begint langzaam de witte vlekken weg te werken. Hij kan op elk moment beslissen welke vlek hij eerst oplost. Hij gebruikt een "ruis" (stochastisch proces) om te raden wat er onder de vlek zit, en doet dit stap voor stap totdat het beeld helder is.

2. Het grote geheim: Hoeveel stappen je neemt

De belangrijkste ontdekking van dit onderzoek is een verrassende regel over de stapgrootte (of "resolutie") van de restaurator.

Snel werken (Weinig stappen): Als de restaurator in één grote sprong probeert alle witte vlekken tegelijk weg te werken, is hij minder geneigd om de tekst letterlijk uit zijn geheugen te halen. Hij maakt meer creatieve keuzes.
Langzaam werken (Veel stappen): Als de restaurator heel gedetailleerd te werk gaat en de vlekken één voor één, heel langzaam oplost, wordt hij steeds meer als de traditionele schrijver.
De conclusie: Hoe meer stappen je neemt om de tekst te genereren, hoe groter de kans dat het model exact dezelfde zin teruggeeft als in zijn training. Als je de stappen oneindig klein maakt (één woord per stap), gedraagt de nieuwe "restaurator" zich precies als de oude "traditionele schrijver".

Analogie:
Stel je voor dat je een geheim onthult.

Als je het snel vertelt (in één grote zin), vergeet je misschien details of verdraai je het een beetje.
Als je het lettergreep voor lettergreep heel langzaam uitspreekt, is de kans groter dat je precies hetzelfde zegt als de originele tekst, inclusief alle fouten en geheimen.

3. Privacy: Wie is veiliger?

De onderzoekers hebben gekeken naar PII (Persoonlijk Identificeerbare Informatie), zoals e-mailadressen en telefoonnummers.

Ze hebben gekeken of de modellen deze gevoelige gegevens konden "lekken" als je ze een klein stukje van de zin gaf (bijvoorbeeld: "Het e-mailadres van de directeur was...").
Het resultaat: De nieuwe "restaurator" (DLM) lekt veel minder privé-informatie dan de traditionele schrijver (ARM), zelfs als ze even groot zijn.
Zelfs als je de restaurator dwingt om heel langzaam te werken (wat normaal gesproken het risico verhoogt), blijft hij veiliger dan de traditionele schrijver.

4. Waarom is dit belangrijk?

Vroeger dachten we dat alle AI-modellen hetzelfde gevaar liepen om geheime data te onthullen. Dit papier laat zien dat de manier waarop je de AI vraagt om te werken (de "stapgrootte") een enorme invloed heeft.

Als je een AI-model gebruikt dat heel snel en grof werkt, is het risico dat het je privé-gegevens onthult kleiner.
Als je het dwingt om super-precies en stap-voor-stap te werken, wordt het gevaar groter.

Kortom:
De onderzoekers hebben een nieuwe manier bedacht om te meten hoe goed AI-modellen hun training onthouden. Ze hebben bewezen dat de nieuwe "diffusie"-modellen (die werken als een restaurator die een schilderij oplost) over het algemeen veiliger zijn voor privacy dan de oude modellen. Maar ze waarschuwen ook: als je die nieuwe modellen te gedetailleerd laat werken, kunnen ze net zo gevaarlijk worden als de oude.

Het is een beetje zoals een slot: een nieuw soort slot (DLM) is over het algemeen moeilijker te kraken dan een oud slot (ARM), maar als je de sleutel (de instellingen) verkeerd gebruikt, kun je het toch open krijgen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Autoregressieve Taalmodellen (ARM's) zijn bekend om hun vermogen om trainingsdata letterlijk (verbatim) te memoriseren en te reproduceren, wat ernstige risico's met zich meebrengt voor privacy (zoals het lekken van persoonlijk identificeerbare informatie, PII) en auteursrecht. Hoewel Diffusion Language Models (DLM's) een veelbelovend alternatief zijn geworden met een andere generatiedynamiek (gebaseerd op bidirectionele masking en denoising in plaats van unidirectionele next-token predictie), is hun memorisatiegedrag nog grotendeels onontgonnen.

De bestaande methoden om memorisatie te meten (zoals prefix-suffix prompting) zijn specifiek ontworpen voor de autoregressieve architectuur en passen niet direct toe op de stochastische, niet-sequentiële denoising-trajecten van DLM's. Er is een fundamenteel theoretisch en empirisch gat in het begrijpen van hoe DLM's trainingsdata internaliseren en onder welke omstandigheden ze deze kunnen lekken.

Methodologie

De auteurs presenteren een systematische theorie en empirische evaluatie om memorisatie in DLM's te karakteriseren.

Generaliseerd Probabilistisch Kader:
De auteurs ontwikkelen een veralgemeend kader voor "ontdekbare extractie" dat geldt voor DLM's met willekeurige masking-patronen en stochastische sampling-trajecten. Dit kader omvat de bestaande prefix-geconditioneerde extractie voor ARM's als een speciaal geval.
- Definitie: Een sequentie is $(n, p)$ -ontdekbare extractie als de kans dat het model binnen $n$ onafhankelijke queries de exacte originele tokens (of een variant binnen een foutmarge $\epsilon$ ) herstelt op de gemaskerde posities, ten minste $p$ is.
- Schatting: Omdat DLM's stochastisch zijn, wordt de kans op succesvolle herstel ( $p_z$ ) geschat door te middelen over meerdere trials en masking-patronen, in plaats van te vertrouwen op een enkele deterministische decoding.
Theoretische Analyse van Sampling Resolutie:
Een kerncomponent van de methode is het analyseren van de invloed van de sampling resolutie (het aantal denoising-stappen $N$ ).
- Aanneming: De auteurs veronderstellen dat het correct herstel van een subset van gemaskerde tokens monotoon toeneemt naarmate de set van waargenomen (reeds herstelde) tokens groeit.
- Stelling 4.3: Er wordt bewezen dat er een monotoon verband bestaat tussen de sampling resolutie en de kans op exacte memorisatie. Hoe fijner de resolutie (meer stappen, waarbij tokens één voor één worden hersteld), hoe hoger de kans op exacte extractie.
- Limietgeval: Autoregressieve decoding wordt gepresenteerd als het limietgeval waarbij de sampling resolutie maximaal is ( $N = |M|$ , waarbij $|M|$ het aantal gemaskerde tokens is).
Experimenteel Opzet:
- Modellen: Er zijn DLM's getraind (170M, 690M, 1.1B parameters) en een ARM-baseline (1.1B) onder identieke condities (zelfde dataset SlimPajama, compute budget) om architecturale verschillen te isoleren. Ook is de grote LLaDA-8B geëvalueerd.
- Datasets: Gebruik van SlimPajama voor validatie en de Enron-email dataset voor PII-lekkage (e-mailadressen en telefoonnummers).
- Vergelijking: DLM's en ARM's worden vergeleken onder dezelfde prefix-geconditioneerde PII-voltooiingstaken.

Belangrijkste Bijdragen

Generaliseerde Formulering: De eerste systematische definitie van memorisatie voor DLM's die rekening houdt met willekeurige masking en stochastische sampling, waarbij de traditionele ARM-methode als subgeval wordt herleid.
Theoretisch Bewijs voor Resolutie: Het bewijzen dat het verhogen van de sampling resolutie (meer denoising-stappen) de kans op exacte memorisatie monotoon verhoogt. Dit impliceert dat autoregressieve decoding inherent meer vatbaar is voor verbatim extractie omdat het de maximale resolutie vertegenwoordigt.
Empirische Validatie van PII-lekkage: Een gealigneerde analyse die aantoont dat DLM's, zelfs bij grotere schaal, aanzienlijk minder PII-lekkage vertonen dan ARM's onder vergelijkbare omstandigheden.

Resultaten

Validatie van het Kader: De theoretische schattingen van de extractiekans komen sterk overeen met empirische resultaten over duizenden generaties, wat aantoont dat het nieuwe kader meetbaar en betrouwbaar is voor DLM's.
Invloed van Sampling Resolutie: Experimenten tonen een duidelijke, monotoon stijgende trend: naarmate het aantal denoising-stappen toeneemt (van 1 stap naar per-token stap), neemt de succeskans voor exacte herstel van trainingsdata toe. Dit bevestigt Assumptie 4.2.
Vergelijking DLM vs. ARM:
- Onder gealigneerde prefix-geconditioneerde taken (bijv. het aanvullen van een e-mailadres op basis van een voorafgaande tekst) vertonen DLM's beduidend minder memorisatie van PII dan ARM's van vergelijkbare grootte.
- Bijvoorbeeld: Voor een 1.1B model werden bij een query-budget van 10.000 slechts 16 e-mailadressen geëxtraheerd door de DLM (bij maximale resolutie), terwijl de ARM 213 e-mailadressen kon extraheren.
- Zelfs het grote LLaDA-8B model (8B parameters) toont bij per-token reconstructie een vergelijkbaar niveau van memorisatie als het veel kleinere 1.1B ARM, ondanks dat het LLaDA-model met twee ordes van grootte meer compute en trainingstokens is getraind.
Generalisatie vs. Memorisation: Tests met een disjoint dataset (TREC Spam) tonen aan dat het extractiemetric echt trainingsdata-memorisation meet en niet slechts generalisatie, aangezien de reconstructiekans voor trainingsdata systematisch hoger ligt dan voor testdata.

Betekenis en Conclusie

Dit onderzoek is cruciaal voor het begrijpen van de veiligheidsimplicaties van de opkomende generatie Diffusion Language Models. De belangrijkste bevindingen zijn:

Veiligheidswinst: DLM's lijken van nature veiliger te zijn wat betreft het lekken van gevoelige trainingsdata (PII) dan traditionele ARM's, vooral omdat hun generatiedynamiek (random masking) het leren van lange, continue contexten die nodig zijn voor verbatim extractie, verstoort.
Risico van Resolutie: Er is een direct verband tussen de sampling strategie en privacyrisico's. Het gebruik van fijnmazige sampling (meer stappen, dichter bij autoregressief gedrag) verhoogt het risico op memorisatie.
Toekomstige Richting: Hoewel DLM's momenteel minder vatbaar lijken, waarschuwen de auteurs dat post-training technieken (zoals Supervised Fine-Tuning) de modeldynamiek kunnen verschuiven naar meer prefix-suffix generatie, wat de memorisatie en extractie mogelijk kan verhogen.

Samenvattend biedt dit papier een fundamenteel nieuw perspectief op privacy in generatieve AI, waarbij het aantoont dat de keuze van het modelarchitectuur en de sampling-strategie directe gevolgen heeft voor de kwetsbaarheid voor data-extractie.

Characterizing Memorization in Diffusion Language Models: Generalized Extraction and Sampling Effects

1. De twee manieren van werken

2. Het grote geheim: Hoeveel stappen je neemt

3. Privacy: Wie is veiliger?

4. Waarom is dit belangrijk?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

The Moral Foundations Reddit Corpus

Automated stance detection in complex topics and small languages: the challenging case of immigration in polarizing news media