Human-Centred LLM Privacy Audits: Findings and Frictions

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache, bildhafte Erklärung der Forschung aus dem Papier, als würde man sie einem Freund beim Kaffee erzählen:

🕵️‍♂️ Das große Rätsel: Was weiß die KI wirklich über dich?

Stell dir vor, du hast einen unheimlich gut informierten, aber etwas verwirrten Nachbarn. Dieser Nachbar hat Millionen von Zeitungen, Büchern und Internetseiten gelesen. Er kennt fast jeden berühmten Menschen auf der Welt. Aber er kennt auch dich – oder zumindest das, was das Internet über dich sagt.

Das Problem: Du hast keine Ahnung, was dieser Nachbar über dich denkt. Vielleicht denkt er, du wohnst in Berlin, obwohl du in München lebst. Vielleicht glaubt er, du bist Arzt, obwohl du Lehrer bist. Und das Schlimmste: Er erzählt das manchmal ganz selbstbewusst weiter, auch wenn es falsch ist.

Die Forscher von der TU Berlin und der Columbia University wollten herausfinden: Was weiß diese KI (Large Language Model, kurz LLM) eigentlich über normale Menschen? Und können wir das selbst überprüfen?

🛠️ Das Werkzeug: Der "Privatsphären-Spiegel" (LMP2)

Da wir nicht in den Computer schauen können (die KI ist eine "Black Box"), haben die Forscher ein Werkzeug namens LMP2 gebaut.

Stell dir LMP2 wie einen Spiegel vor, den du in die Hand nimmst.

Du sagst dem Spiegel deinen Namen.
Du fragst ihn: "Was weißt du über meine Augenfarbe? Über meinen Beruf? Über meine Telefonnummer?"
Der Spiegel schaut in die riesige Datenbank der KI und sagt dir: "Ich bin zu 90 % sicher, dass du blaue Augen hast" oder "Ich bin mir gar nicht sicher".

Das Besondere: Der Spiegel zeigt dir nicht nur die Antwort, sondern auch, wie sicher sich die KI ist.

🔍 Was haben sie herausgefunden? (Die Ergebnisse)

Die Forscher haben das mit 458 echten Menschen und vielen KI-Modellen getestet. Hier sind die wichtigsten Erkenntnisse, einfach erklärt:

1. Berühmte vs. Unbekannte:

Prominente: Bei berühmten Leuten (wie Schauspieler oder Politiker) ist die KI wie ein perfekter Biograf. Sie weiß fast alles: Geburtsdatum, Religion, Sexualität. Das liegt daran, dass im Internet so viel über sie steht.
Normale Menschen: Bei ganz normalen Leuten (wie dir und mir) ist die KI wie ein Glücksritter. Sie weiß oft nicht wirklich Bescheid, aber sie vermutet Dinge. Wenn du "Hans Müller" heißt, sagt die KI vielleicht: "Hans Müller ist sicher ein Deutscher und mag Bier." Das ist oft nur ein Klischee, aber die KI sagt es mit großer Sicherheit.

2. Der "Raten-Trick":
Die KI ist sehr gut darin, Muster zu erkennen. Wenn du "Hans" heißt, weiß sie, dass das ein deutscher Name ist. Wenn du "Maria" heißt, weiß sie, dass das oft weiblich ist. Sie nutzt diese Hinweise, um Dinge zu erraten, die sie gar nicht wirklich weiß.

Beispiel: Die KI hat bei 11 von 50 getesteten Eigenschaften (wie Geschlecht, Muttersprache, Augenfarbe) bei normalen Menschen eine Trefferquote von über 60 %. Das ist viel mehr als zufälliges Raten!

3. Die Angst der Nutzer:
Die Forscher haben die Teilnehmer gefragt: "Findet ihr das beunruhigend?"

Die meisten sagten: "Eigentlich nicht, solange es stimmt."
ABER: Fast alle (72 %) wollten unbedingt die Möglichkeit, diese Informationen löschen oder korrigieren zu können.
Die Metapher: Stell dir vor, jemand schreibt ein falsches Profil über dich auf eine schwarze Tafel. Du willst nicht unbedingt, dass er es sofort löscht, aber du willst das Radiergummi in der Hand haben, falls er etwas Falsches schreibt.

🚧 Die großen Probleme (Warum das so schwer ist)

Die Forscher sagen, es ist gar nicht so einfach, diese KI zu "auditieren" (zu überprüfen). Es gibt neun große Hindernisse, aber hier sind die drei wichtigsten:

1. Der "Wahrscheinlichkeits-Zauber" (Keine harten Fakten):
Eine KI ist wie ein Wetterbericht, kein Polizeibericht.

Ein Polizeibericht sagt: "Es hat um 14 Uhr geregnet." (Fakt).
Ein Wetterbericht sagt: "Es könnte regnen, vielleicht auch nicht." (Wahrscheinlichkeit).
Die KI gibt keine harten Fakten aus, sondern nur Wahrscheinlichkeiten. Wenn sie sagt "Hans wohnt in Berlin", meint sie eigentlich: "Basierend auf allem, was ich gelesen habe, ist es wahrscheinlich, dass Hans in Berlin wohnt." Das macht es schwer, vor Gericht zu beweisen, dass die KI etwas "gestohlen" oder "gespeichert" hat.

2. Der "Verwechselungs-Effekt":
Wenn du einen sehr häufigen Namen hast (z. B. "Thomas Schmidt"), kann die KI dich mit tausend anderen Thomas Schmidts verwechseln. Sie zieht dann Informationen von einem anderen Thomas Schmidt auf dich.

Metapher: Es ist, als würdest du in einem vollen Raum stehen und jemand ruft "Thomas!". Alle Thomas-Schmidts drehen sich um. Die KI weiß nicht, welcher Thomas du bist, und gibt dir die Eigenschaften des falschen Thomas.

3. Das "Flickwerk" der Daten:
Die Daten in der KI sind veraltet. Vielleicht hast du vor fünf Jahren in Berlin gewohnt, aber jetzt in München. Die KI weiß das vielleicht noch nicht. Oder sie weiß es gar nicht, weil sie nur alte Zeitungen gelesen hat.

Metapher: Die KI ist wie ein Kalender aus dem Jahr 2019. Wenn du heute nachfragst, zeigt er dir immer noch Feiertage aus dem Jahr 2019 an.

💡 Was bedeutet das für uns?

Die Forscher sagen: Wir brauchen neue Regeln und neue Werkzeuge.

Transparenz: Wir müssen wissen, ob die KI etwas weiß (weil sie es gelernt hat) oder nur vermutet (weil sie gerät).
Kontrolle: Nutzer müssen das Recht haben, diese "Vermutungen" zu löschen, auch wenn sie technisch gesehen nicht "gespeicherte Daten" sind, sondern nur Wahrscheinlichkeiten.
Vorsicht: Wir dürfen nicht blind darauf vertrauen, was die KI über uns sagt. Sie ist oft nur ein gut informierter, aber manchmal sehr voreingenommener Nachbarn, der gerne spekuliert.

Zusammenfassend:
Die KI hat ein "Gedächtnis" über uns, das wir nicht sehen können. Manchmal ist es richtig, oft ist es nur eine gut getarnte Vermutung. Das Ziel dieser Forschung ist es, uns einen Spiegel zu geben, damit wir sehen können, was die KI über uns denkt, und damit wir das Radiergummi in die Hand bekommen, um es zu korrigieren.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Human-Centred LLM Privacy Audits: Findings and Frictions" auf Deutsch:

1. Problemstellung

Große Sprachmodelle (LLMs) lernen statistische Assoziationen aus massiven Trainingskorpora und Nutzerinteraktionen. Dies führt dazu, dass deployierte Systeme Informationen über Individuen ableiten oder offenbaren können, selbst wenn diese Daten nicht explizit gespeichert wurden.

Das Kernproblem: Individuen haben keine praktischen Möglichkeiten zu prüfen, welche Assoziationen ein Modell mit ihrem Namen oder ihrer Identität verknüpft.
Lücken in der aktuellen Forschung: Bestehende Datenschutz-Audits auf Organisationsebene geben keine Auskunft über modellinterne Assoziationen. Technische Audits konzentrieren sich oft auf spezifische Risiken wie „Memorization" (Auswendiglernen von Daten) oder „Attribute Inference" (Schlussfolgerung von Attributen), ignorieren aber oft die menschliche Perspektive und die Schwierigkeit, probabilistische Ausgaben in handlungsrelevante Beweise zu übersetzen.
Herausforderung: LLM-Ausgaben sind stochastisch, kontextabhängig und durch Black-Box-APIs geschützt. Ein korrektes Output allein beweist nicht, wie das Modell zu diesem Ergebnis kam (Memorization vs. Inferenz vs. Raten), was die rechtliche und technische Zuordnung erschwert.

2. Methodik und Werkzeug (LMP2)

Die Autoren stellen LMP2 (Language Model Privacy Probe) vor, ein browserbasiertes Selbst-Audit-Tool, das „Canary Probing" an Black-Box-APIs anpasst.

Probing-Mechanismus:
- Basierend auf WikiMem werden 50 menschliche Eigenschaften (z. B. Geburtsdatum, Beruf, Wohnort) ausgewählt.
- Es werden „Canaries" (kurze Prüfsätze) verwendet, die ein Triple aus Subjekt ( $h$ ), Eigenschaft ( $p$ ) und Wert ( $v$ ) behaupten.
- Fragment-Wiederherstellungsaufgabe: Da Black-Box-APIs nur Wahrscheinlichkeiten für vervollständigte Sätze liefern, werden die Eingaben so manipuliert, dass das Modell nur die letzten 1-2 Zeichen eines Wortes vervollständigen muss.
- Aufbau: Für jede Eigenschaft werden 5 Paraphrasen der Canary-Sätze verwendet. Dazu kommen $n$ Ground-Truth-Vorlagen (z. B. 2 Zeichen des korrekten Wortes) und 20 zufällige kontrafaktische Präfixe (als Baseline).
Metriken:
- Assoziationsstärke (Association Strength): Kombiniert die Häufigkeit, mit der ein Wert generiert wird, mit seiner durchschnittlichen Wahrscheinlichkeit (oder NLL, wenn Log-Probabilites nicht verfügbar sind).
- Konfidenz (Confidence): Misst, wie stark die Evidenz auf einen einzigen Wert konvergiert (ob das Modell unsicher ist oder eine klare Vorhersage trifft).
Datenfluss: Nutzer geben ihren Namen und ausgewählte Merkmale ein. Der Client sendet diese an den Server, der die Abfragen an den LLM-Anbieter stellt. Die Ergebnisse werden aggregiert und als „Result Cards" mit Vorhersagen und Konfidenzwerten zurückgegeben.

3. Wichtige Ergebnisse

A. Empirische Evaluation (8 Modelle, Famous vs. Synthetic)

Die Studie verglich drei Open-Source-Modelle (Qwen3, Llama 3.1, Ministral) und fünf API-Modelle (GPT-4o, GPT-5, Gemini, Grok-3, Cohere) an 100 bekannten Personen und 100 erfundenen Namen.

Trennung nach Bekanntheit: Modelle zeigen eine klare Trennung in der Konfidenz zwischen bekannten Personen (hohe Web-Präsenz) und erfundenen Namen. Bekannte Personen haben stabile, namenbedingte Assoziationen.
Eigenschaften-Effekte: Niedrig-kardinalitätige Attribute (Geschlecht, Muttersprache) werden präziser vorhergesagt als offene Attribute (Vermögen, Stiefeltern).
Sensible Daten bei Prominenten: API-Modelle reproduzieren sensible Fakten (Religion, sexuelle Orientierung) mit hoher Präzision (> 0,8).
Hohe Konfidenz bei Fehlern: Modelle neigen bei nicht-existierenden Namen zu voreingenommenen „Defaults" (z. B. „ambidextrous" für Händigkeit, „+1" für Telefonnummern) mit hoher Konfidenz. Nur Ministral 8B zeigte hier eine fast uniforme Verteilung.
Modellgröße: Größere API-Modelle sind signifikant genauer bei bekannten Personen als kleinere Open-Source-Modelle.

B. Nutzerstudien (EU-Bewohner, $N_{total}=458$ )

Interesse: 60% der Teilnehmer zeigten Interesse an einem Selbst-Audit-Tool.
Verhalten: Teilnehmer wählten eher demografische Merkmale (Augenfarbe, Haarfarbe) als hochsensible Daten (Telefonnummer, medizinische Bedingungen), obwohl sie Letztere als größten Risikofaktor nannten.
Leistung von GPT-4o: Das Modell sagte 11 von 50 Merkmalen für normale Personen mit $\ge$ 60% Genauigkeit vorher (z. B. Geschlecht 94,4%, sexuelle Orientierung 82,9%, Muttersprache 77,8%).
Wahrnehmung: 87% der korrekten Vorhersagen wurden nicht als Datenschutzverletzung wahrgenommen, dennoch wollten 72% der Nutzer die Möglichkeit, diese Assoziationen zu löschen oder zu korrigieren.

4. Zentrale Beiträge und „Frictions" (Reibungspunkte)

Das Paper identifiziert neun „Frictions", die humanzentrierte Audits erschweren, und hebt die folgende hervor:

Übersetzungslücke: Der Gap zwischen technischer Evaluation (kann das Modell Daten leakern?) und handlungsrelevanten Selbst-Audits (was assoziiert das System mit mir?).
Ambiguität des Audit-Scope: Unklare Definition, was eine „Assoziation" ist (Fakten vs. Inferenzen vs. Bewertungen) und was ein Audit zertifizieren kann.
Kontextabhängigkeit: Die Beobachtungen hängen stark davon ab, was Teilnehmer testen (Selbstselektion verzerrt die Ergebnisse).
Verflechtung von Mechanismen: Es ist aus dem Output allein nicht unterscheidbar, ob das Modell Daten auswendig gelernt (Memorization), aus Kontexten inferiert oder nur auf Populations-Priors geratet hat. Dies erschafft eine strukturelle Spannung zwischen „Assoziation" und „Nachweisbarkeit".
Indirekte Identifikation: Namen sind oft nicht eindeutig; Kontext kann zu Bias führen, aber fehlender Kontext macht die Identifikation unmöglich.
Mehrdeutige Ground Truth: Persönliche Daten ändern sich oder sind mehrdeutig (z. B. mehrere Wohnorte), was die Validierung erschwert.
Normative vs. faktische Attribute: Datenschutzrecht umfasst auch subjektive Bewertungen und abgeleitete Profile, die schwer zu auditieren sind.
Sprachliche Beschränkungen: Das Tool ist englischsprachig und nutzt lateinische Schrift, was die Validität für andere Kulturen einschränkt.
Deployierte Systeme: Durch Retrieval-Augmented Generation (RAG) und Agenten-Workflows wird die Zuordnung von Ausgaben zum Modell undurchsichtig.

5. Signifikanz und Fazit

Evaluation-Krise: Das Paper argumentiert, dass wir uns in einer „generativen AI Evaluation Crisis" befinden. Wenn Ausgaben probabilistisch und kontextabhängig sind, ist die Operationalisierung von „Modell-Individuum-Assoziationen" unterbestimmt.
Handlungsempfehlungen: Um verlässliche Audits zu ermöglichen, müssen zukünftige Tools:
- Den Audit-Scope explizit definieren (Was zählt als Assoziation?).
- Stabilität über verschiedene Prompts und Seeds hinweg kommunizieren.
- Metadaten (Zeitstempel, Modellversion, Prompt) exportieren, um Beweispakete für rechtliche Anfechtungen (z. B. DSGVO) zu schaffen.
Fazit: Humanzentrierte LLM-Privatsphäre-Audits sind nicht nur ein Messproblem, sondern eine sozio-technische Designherausforderung. Es reicht nicht, Assoziationen zu finden; es muss ein Weg gefunden werden, diese für Nutzer interpretierbar und rechtlich angreifbar zu machen, trotz der inhärenten Unsicherheit probabilistischer Modelle.

Human-Centred LLM Privacy Audits: Findings and Frictions

🕵️‍♂️ Das große Rätsel: Was weiß die KI wirklich über dich?

🛠️ Das Werkzeug: Der "Privatsphären-Spiegel" (LMP2)

🔍 Was haben sie herausgefunden? (Die Ergebnisse)

🚧 Die großen Probleme (Warum das so schwer ist)

💡 Was bedeutet das für uns?

1. Problemstellung

2. Methodik und Werkzeug (LMP2)

3. Wichtige Ergebnisse

A. Empirische Evaluation (8 Modelle, Famous vs. Synthetic)

B. Nutzerstudien (EU-Bewohner, Ntotal=458N_{total}=458Ntotal​=458)

4. Zentrale Beiträge und „Frictions" (Reibungspunkte)

5. Signifikanz und Fazit

Mehr davon

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance

B. Nutzerstudien (EU-Bewohner, $N_{total}=458$ )