Human-Centred LLM Privacy Audits: Findings and Frictions

Questo studio presenta LMP2, uno strumento di auto-audit basato sul browser, e attraverso due ricerche con 458 partecipanti evidenzia come i modelli linguistici possano inferire informazioni personali, rivelando al contempo le sfide e le frizioni nell'operazionalizzare audit sulla privacy centrati sull'utente per l'intelligenza artificiale generativa.

Dimitri Staufer, Kirsten Morehouse, David Hartmann, Bettina Berendt

Pubblicato Fri, 13 Ma
📖 6 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

Ecco una spiegazione semplice e creativa del paper, pensata per chiunque, anche senza conoscenze tecniche.

🕵️‍♂️ Il "Ritratto Invisibile" che l'Intelligenza Artificiale si fa di te

Immagina che ogni volta che parli con un'Intelligenza Artificiale (come ChatGPT), lei non stia solo ascoltando le tue parole, ma stia anche disegnando un ritratto invisibile di chi sei. Questo ritratto è fatto di pezzi di informazioni che ha raccolto da internet: il tuo nome, la tua città, cosa fai, cosa ti piace, e forse anche cose che non hai mai detto a nessuno.

Il problema? Tu non puoi vedere questo ritratto. Non sai se l'IA pensa che tu sia un medico, se sa che vivi a Milano, o se associa il tuo nome a certi stereotipi. È come se qualcuno ti stesse osservando da dietro un vetro fumato e scrivendo note su di te, ma tu non potessi mai leggere quelle note.

🛠️ La soluzione: LMP2, lo "Specchio Magico"

Gli autori di questo studio (un gruppo di ricercatori di Berlino e New York) hanno creato uno strumento chiamato LMP2.
Pensa a LMP2 come a uno specchio magico o a un detective privato che puoi usare dal tuo browser.

Ecco come funziona il "trucco":

  1. Entri nel laboratorio: Scrivi il tuo nome vero.
  2. Fai le domande: Scegli quali aspetti della tua vita vuoi controllare (es. "Qual è il mio colore degli occhi?", "Dove vivo?", "Qual è la mia professione?").
  3. Il test: LMP2 non chiede direttamente all'IA "Chi è Mario Rossi?". Invece, gioca a un gioco di completamento di frasi. Dice all'IA: "Il nome di Mario Rossi è... [frase spezzata]" e vede cosa l'IA completa.
  4. Il risultato: Ti mostra una "Scheda Risultati" che ti dice: "Ehi, l'IA associa il tuo nome a 'Occhi azzurri' con il 74% di sicurezza" oppure "Pensa che tu viva a Londra".

📊 Cosa hanno scoperto? (Le Sorprese)

Hanno fatto due tipi di esperimenti: uno con famosi (celebrità) e uno con persone normali (come te e me).

  1. I Famosi sono "nudi": Per le persone famose, l'IA è bravissima. Se chiedi a un'IA chi è Harry Potter, ti dirà subito che vive a Hogwarts. Per i veri famosi, l'IA ricorda quasi tutto quello che c'è su Wikipedia.
  2. Le persone normali sono "indovinate": Qui diventa interessante. Anche per persone comuni, l'IA è sorprendentemente brava a indovinare cose.
    • Hanno testato GPT-4o su 50 caratteristiche diverse.
    • Ha indovinato correttamente il sesso nel 94% dei casi, l'orientamento sessuale nell'83%, la lingua madre nel 78% e persino il colore degli occhi nel 74%.
    • Il paradosso: Anche se l'IA indovina bene, molte persone non pensano che sia una violazione della privacy. Tuttavia, il 72% delle persone intervistate ha detto: "Vorrei poter cancellare o correggere queste informazioni se sono sbagliate".

⚠️ I 9 "Attriti" (Perché è tutto così complicato?)

Il paper non si limita a dire "l'IA sa cose su di te", ma spiega perché è difficile fare qualcosa al riguardo. Immagina di dover pulire una casa piena di specelli rotti: ecco i problemi principali (gli "attriti"):

  1. Non è una verità assoluta, è una scommessa: L'IA non "ricorda" come un umano. Fa ipotesi. Se l'IA dice che vivi a Roma, potrebbe essere vero perché l'ha letto, oppure perché ha indovinato basandosi sul tuo nome. È difficile distinguere un ricordo reale da un'ipotesi fortunata.
  2. Il gioco delle tre carte: Se cambi leggermente la domanda (parafraasi), l'IA potrebbe darti una risposta diversa. È come chiedere a un amico "Dove vivi?" e poi "Qual è la tua città di residenza?": potrebbe dirti cose diverse. Questo rende difficile avere una prova solida.
  3. Chi è il colpevole? Se l'IA sbaglia e dice che sei un criminale, è colpa del modello? Del sito web da cui ha preso i dati? O dell'algoritmo che ha deciso di mostrartelo? È tutto un groviglio.
  4. I nomi sono ambigui: Se ti chiami "Mario Rossi", l'IA potrebbe confonderti con un altro Mario Rossi famoso. Ma se ti chiami "Mario Rossi" e sei un medico, l'IA potrebbe associarti a cose sbagliate basandosi su stereotipi.
  5. La verità cambia: I dati invecchiano. Se l'IA pensa che vivi a Milano, ma ti sei trasferito a Roma ieri, l'IA non lo sa. Come fai a farle "dimenticare" il vecchio dato?
  6. Non solo fatti, ma giudizi: L'IA non sa solo i tuoi dati, ma può inventare giudizi. "Mario è una persona gentile". È un dato personale? È vero? È difficile da controllare.
  7. Lingua e cultura: Il loro strumento funziona bene in inglese. Ma per chi parla altre lingue o usa altri alfabeti? L'IA potrebbe essere molto meno precisa o molto più sbagliata.
  8. Le persone evitano i temi scottanti: Quando hanno dato il tool alle persone, molti hanno scelto di controllare cose "leggere" come il colore dei capelli, ma hanno evitato cose sensibili come le malattie o il numero di telefono, per paura. Questo significa che non vediamo tutto il problema.
  9. Il sistema cambia: Le IA di oggi usano anche internet in tempo reale. Quindi, la risposta che ti danno oggi potrebbe essere diversa da quella di domani. Come fai a fare una "fotografia" stabile della tua privacy?

💡 La Conclusione: Cosa dobbiamo fare?

Il messaggio finale è che non possiamo fidarci ciecamente di queste macchine.
L'IA sta creando un "doppio digitale" di noi, fatto di dati reali e di ipotesi.

  • Dobbiamo avere il controllo: Le persone vogliono sapere cosa l'IA pensa di loro e vogliono poter correggere gli errori (il "diritto all'oblio").
  • Serve trasparenza: Gli strumenti come LMP2 sono un primo passo, ma dobbiamo capire che l'IA non è un libro di storia, è un indovino molto abile.
  • Non è solo un problema tecnico: È un problema sociale. Dobbiamo decidere come vogliamo che le macchine ci vedano e come possiamo proteggerci quando fanno "ipotesi" su di noi.

In sintesi: L'IA ci sta guardando e scrivendo note su di noi. Noi abbiamo bisogno di uno specchio per leggere quelle note e di una gomma per cancellare quelle sbagliate.