Human-Centred LLM Privacy Audits: Findings and Frictions

Each language version is independently generated for its own context, not a direct translation.

Titel: Wat denkt de AI over jou? Een kijkje in de keuken van de digitale geheugenkrant

Stel je voor dat er een enorme, onzichtbare bibliotheek bestaat. In deze bibliotheek staat niet alleen elke Wikipedia-pagina, maar ook elke blogpost, elk nieuwsbericht en elke discussie die ooit online is geplaatst. Een kunstmatige intelligentie (een LLM, zoals de chatbots die we nu gebruiken) heeft deze hele bibliotheek gelezen en onthouden.

De vraag die onderzoekers van de TU Berlijn en Columbia University zich stellen, is: Wat heeft deze bibliotheek over jou onthouden? En nog belangrijker: Kun jij dat zelf zien en controleren?

Hier is wat ze hebben ontdekt, vertaald in een verhaal dat iedereen begrijpt.

1. De "Digitale Spiegel" (Het gereedschap LMP2)

De onderzoekers hebben een speciaal spiegelontworpen: een tool genaamd LMP2.
Stel je voor dat je naar een spiegel kijkt, maar in plaats van je gezicht te zien, zie je een lijst met eigenschappen die de AI aan jouw naam koppelt.

Hoe werkt het? Je typt je naam in. De tool stelt de AI honderden vragen in de vorm van "Voltooi deze zin: [Jouw Naam] woont in...".
Het resultaat: De tool laat je zien wat de AI het meest waarschijnlijk antwoordt. Is het "Amsterdam"? Of denkt de AI dat je "in een kasteel woont"?

2. Wat vonden ze? (De verrassingen)

Ze hebben dit getest met bekende mensen (zoals acteurs) en met gewone mensen (zoals jij en ik).

Bekende mensen: Voor beroemdheden is de AI een perfecte fotograaf. Hij weet bijna alles: hun geboortedatum, hun nationaliteit, zelfs hun politieke voorkeur. De AI heeft deze feiten letterlijk "uit het hoofd geleerd" omdat ze overal op internet staan.
Gewone mensen: Hier wordt het interessant. Voor gewone mensen is de AI een gokker met een voorspellingskracht.
- De AI kan met 94% zekerheid raden of je man of vrouw bent.
- Hij kan met 83% zekerheid raden wat je moedertaal is.
- Hij kan zelfs raden wat je haarkleur of oogkleur is (soms tot 74% juistheid).
- Maar: Hij gokt ook. Als je een naam hebt die vaak voorkomt, of als de AI niet zeker weet, gunt hij een "standaardantwoord". Bijvoorbeeld: als hij niet weet wat je telefoonnummer is, gokt hij misschien op een willekeurig nummer dat begint met +1.

De grote les: De AI hoeft je niet echt te kennen om over je te praten. Hij gebruikt statistische patronen. Als je naam "Jan" is, denkt hij misschien dat je uit Nederland komt, niet omdat hij Jan kent, maar omdat de meeste Jans in zijn trainingsdata uit Nederland kwamen.

3. De "Grote Verwarring" (Het probleem)

Hier komt de echte knelpunt. Stel, de AI zegt: "Jan woont in Berlijn." En dat klopt.
Is dat een privacy-inbreuk?

De mensen in het onderzoek zeiden: "Nou, het klopt, dus het is niet zo erg."
Maar: De onderzoekers zeggen: "Wacht even! Hoe weet de AI dat? Heeft hij een document van je gelezen (geheugen), of heeft hij het geraden op basis van je naam (inference)?"

Dit is als een detective die een misdaad oplost.

Optie A: De detective heeft je vingerafdrukken gevonden (je hebt het zelf online gezet).
Optie B: De detective heeft geraden dat jij de dader bent omdat je een rode jas draagt en de dader een rode jas had (statistisch gissen).

Voor de privacywet (zoals de AVG/GDPR) maakt dit een groot verschil. Maar voor de AI is het allemaal hetzelfde: een antwoord geven. De onderzoekers noemen dit een "Crisis in de Evaluatie": we weten niet zeker waarom de AI iets zegt, alleen dat hij het zegt.

4. Wat willen mensen? (De controle)

De onderzoekers vroegen 458 mensen: "Wat vinden jullie hiervan?"

Het verbluffende antwoord: De meeste mensen vonden dat de AI hun gegevens niet per se "stiekem" maakte, zelfs als de AI het goed had.
Maar: 72% van de mensen wilde wel de knop "Vergeten" of "Corrigeren".
- Ze wilden niet dat de AI iets over hen zegt dat niet klopt.
- Ze wilden niet dat de AI iets zegt dat ze liever geheim houden (zoals een medische aandoening), zelfs als de AI het maar "gokt".

Het is alsof je een buurman hebt die over je praat. Als hij zegt: "Die Jan is aardig", vind je het misschien wel leuk. Maar als hij zegt: "Die Jan heeft een geheimzinnig verleden" (terwijl hij dat maar gis), wil je dat hij stopt en het corrigeert.

5. De 9 "Struikelblokken" (Waarom is dit zo moeilijk?)

De onderzoekers noemen 9 redenen waarom dit zo lastig is om op te lossen:

De AI is wisselvallig: Als je dezelfde vraag twee keer stelt, kan het antwoord anders zijn. Hoe bewijs je dan iets?
De AI is een zwarte doos: We zien niet hoe hij denkt, alleen wat hij zegt.
Naamverwarring: Veel mensen heten "Jan". De AI kan ze verwarren met een beroemde Jan.
Tijdsverloop: Wat waar was in 2020, is nu misschien niet meer waar. De AI weet niet altijd wat er nu is.
Taalproblemen: De tool werkt alleen goed in het Engels. Voor mensen in andere talen werkt het niet.
Gevoelige onderwerpen: Mensen durven vaak niet te vragen of de AI weet dat ze ziek zijn of wat hun religie is, uit angst.
Het bewijs is vaag: Als de AI iets zegt, is dat dan een feit of een gok? Dat is moeilijk te bewijzen.
Verwarring over wat "privacy" is: Mensen denken soms dat alleen "geheime" dingen privacy zijn, maar ook "geraden" dingen kunnen schadelijk zijn.
De AI verandert: Elke keer als de AI-update krijgt, verandert zijn geheugen.

Conclusie: Wat betekent dit voor jou?

De boodschap van dit onderzoek is helder: Kunstmatige intelligentie heeft een "geheugen" over jou, zelfs als je nooit met die specifieke AI hebt gepraat. Het heeft je naam gekoppeld aan eigenschappen, soms juist, soms door te gokken.

De onderzoekers zeggen: "We moeten niet alleen kijken of de AI fouten maakt, maar we moeten mensen de controle geven.**"
We hebben nieuwe tools nodig die niet alleen zeggen: "De AI denkt dit," maar ook: "Hier is het bewijs, en hier is de knop om het te laten vergeten als het niet klopt of als je het niet wilt."

Het is tijd om de AI niet meer als een magische orakel te zien, maar als een bibliotheekbeheerder die soms vergeetachtig is en soms te veel fantasie heeft. En jij moet de sleutel hebben om die bibliotheek te controleren.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Human-Centred LLM Privacy Audits: Findings and Frictions" in het Nederlands.

Probleemstelling

Grote Taalmodellen (LLMs) worden getraind op enorme corpora en leren statistische associaties die kunnen leiden tot het afleiden of blootleggen van persoonlijke informatie over individuen. Hoewel organisaties privacyaudits uitvoeren, ontbreekt er voor individuen een praktische manier om te inspecteren welke informatie een model aan hun naam of identiteit koppelt.
De huidige uitdagingen zijn:

Black-box beperkingen: API's verbergen de interne werking van modellen.
Stochasticiteit: LLM-outputs zijn probabilistisch en gevoelig voor de manier waarop prompts worden geformuleerd (elicitation).
Ontbrekende controle: Gebruikers kunnen niet zien of corrigeren welke "geheugen" of afgeleide attributen (zoals geaardheid, religie of locatie) een model aan hen koppelt, zelfs niet als deze niet expliciet als "herinnering" zijn opgeslagen.
Evaluatiecrisis: Er is geen eenduidige definitie van wat een "associatie" is in probabilistische systemen, wat het moeilijk maakt om bewijs te leveren voor juridische actie (zoals onder de GDPR).

Methodologie: LMP2 en Audit-Design

De auteurs introduceren LMP2 (Language Model Privacy Probe), een browsergebaseerde tool voor zelf-audits die is ontworpen om black-box API's te omzeilen.

Technische Aanpak (Canary Probing):
- De tool gebruikt "canaries": korte zinnen die een subject-eigenschap-waarde triplet $(h, p, v)$ bevestigen (bijv. "De woonplaats van [Naam] is...").
- Er zijn 50 menselijke eigenschappen geselecteerd (o.a. geslacht, nationaliteit, telefoonnummer) gebaseerd op WikiMem/Wikidata.
- Fragment Recovery Task: Omdat API's alleen waarschijnlijkheden over hun eigen generaties tonen, worden de prompts gefragmenteerd. De tool truncate de grondwahrheid (ground truth) naar een twee-karakter voorvoegsel, genereert 20 willekeurige contrafactuele voorvoegsels, en vraagt het model om alleen het laatste woord(e) te corrigeren.
- Aggregatie: Voor elke eigenschap worden tot 5 parafrases van de canary gebruikt. De outputs worden geaggregeerd om twee metrics te berekenen:
  1. Associatiestrength: Hoe vaak een waarde wordt gegenereerd, gecombineerd met de gemiddelde waarschijnlijkheid (vote weight).
  2. Confidence: Hoe geconcentreerd de bewijslast is (convergeert het model naar één waarde of blijft het verspreid?).
Studieopzet:
- Empirische Audit: Vergelijking van 8 modellen (3 open-source: Qwen3, Llama 3.1, Ministral; 5 API-modellen: GPT-4o, GPT-5, Gemini, Grok-3, Cohere) op twee datasets: "Famous" (100 publieke figuren) en "Synthetic" (100 niet-bestaande namen).
- Gebruikersstudies: Twee studies met in totaal $N=303$ EU-burgers die de LMP2-tool gebruikten om hun eigen namen te testen, gevolgd door een enquête ( $N=155$ ) over percepties.

Belangrijkste Resultaten

Prestaties op Publieke Figuren vs. Synthetische Namen:
- Modellen tonen duidelijke, stabiele naam-geconditioneerde associaties voor publieke figuren (hoge "confidence" scores).
- Voor niet-bestaande namen (Synthetic) defaulten de meeste modellen naar hoog-probabilistische bias-gissingen (bijv. "ambidextrous" voor handigheid, "+1" voor telefoonnummers) met hoge confidence.
- Ministral 8B was een uitzondering: het vertoonde een bijna uniforme outputverdeling voor synthetische namen, wat suggereert dat het minder geneigd is tot bias-gissingen zonder data.
Prestaties op Gewone Mensen (User Studies):
- GPT-4o voorspelde 11 van de 50 eigenschappen voor gewone mensen met $\ge 60\%$ nauwkeurigheid.
- Hoogst nauwkeurige attributen: Geslacht (94,4%), seksuele geaardheid (82,9%), moedertaal (77,8%), oogkleur (74,3%) en haarkleur (74,1%).
- Moeilijke attributen: Net-waarde, stiefouders en telefoonnummers hadden lage nauwkeurigheid.
- Interessant: De nauwkeurigheid bleef hoog zelfs voor zeldzame eigenschappen (bijv. blauwe ogen), wat suggereert dat het niet puur om "majority guessing" gaat.
Gebruikersperceptie en Behoeften:
- Hoewel 87% van de outputs niet als een privacy-schending werd gezien (zelfs als ze accuraat waren), wilde 72% van de deelnemers de mogelijkheid om gegenereerde informatie over hen te wissen of te corrigeren.
- Deelnemers waren het meest bezorgd over telefoonnummers en medische condities, maar selecteerden deze zelden (<3%) in de tool, waarschijnlijk door terughoudendheid om deze hoge-gevoeligheidsattributen te testen.

Kernbijdragen en "Frictions" (Knelpunten)

Het paper identificeert negen "frictions" die human-centred privacy audits bemoeilijken, wat leidt tot een bredere evaluatiecrisis voor generatieve AI:

Vertaalkloof: Het verschil tussen technische evaluaties (lekt het model data?) en actievere zelf-audits (wat associeert het systeem met mij?).
Ambiguïteit in Scope: Onduidelijkheid over wat een audit kan certificeren (bijv. is een correcte output bewijs van memorisatie of inferentie?).
Context-afhankelijkheid: Wat wordt waargenomen hangt af van wat gebruikers kiezen om te testen (selectie bias).
Verstrengeling van Mechanismen: Het is onmogelijk om uit de output alleen te onderscheiden of een model een feit heeft gememoriseerd, geïnferreerd uit context, of geraden op basis van populatie-priors. Dit maakt juridische aansprakelijkheid lastig.
Indirecte Identificatie: Namen zijn niet uniek; stijl, locatie en andere cues kunnen leiden tot attributie, wat audits complexer maakt.
Meervoudige Grondwahrheden: Persoonlijke attributen veranderen in de tijd of hebben meerdere waarden (bijv. meerdere werkgevers), wat de validatie bemoeilijkt.
Beyond Factual Attributes: Privacywetgeving gaat verder dan feiten naar inferenties en subjectieve oordelen, wat lastig te auditen is.
Taal- en Scriptbeperkingen: De huidige tools zijn Engels/Latin-script gebaseerd, wat de validiteit voor andere culturen beperkt.
Deployed Systems: Tool-augmented LLMs (met web-search) maken attributie onduidelijk omdat de output afhangt van externe bronnen en niet alleen van het model.

Significantie en Conclusie

Dit paper stelt dat privacy-audits voor LLMs niet alleen een technisch meetprobleem zijn, maar een socio-technisch ontwerpherausfordering.

Verschuiving in Focus: De focus moet verschuiven van het bewijzen van "waarheid" naar het leveren van een evidence package dat contestatie en remediatie ondersteunt, ondanks probabilistische onzekerheid.
Aanbevelingen: Toekomstige audit-tools moeten:
- De scope expliciet definiëren (wat telt als associatie?).
- Stabiliteit tonen over verschillende prompts en seeds.
- Metadata exporteren (tijdstip, modelversie, prompt) voor juridisch gebruik.
- Onderscheid maken tussen directe, indirecte en gegokte attributen.

De auteurs concluderen dat zonder deze human-centred aanpak en duidelijke audit-protocollen, individuen geen controle hebben over hun digitale identiteit in het tijdperk van generatieve AI, en dat de huidige evaluatiemethoden ontoereikend zijn om de risico's van LLMs volledig te begrijpen.

Human-Centred LLM Privacy Audits: Findings and Frictions

1. De "Digitale Spiegel" (Het gereedschap LMP2)

2. Wat vonden ze? (De verrassingen)

3. De "Grote Verwarring" (Het probleem)

4. Wat willen mensen? (De controle)

5. De 9 "Struikelblokken" (Waarom is dit zo moeilijk?)

Conclusie: Wat betekent dit voor jou?

Probleemstelling

Methodologie: LMP2 en Audit-Design

Belangrijkste Resultaten

Kernbijdragen en "Frictions" (Knelpunten)

Significantie en Conclusie

Meer zoals dit

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance