Human-Centred LLM Privacy Audits: Findings and Frictions

该论文介绍了浏览器端自我审计工具 LMP2 及两项涉及 458 名用户的研究,揭示了大型语言模型能基于姓名预测个人特征且用户渴望控制此类关联,同时指出了当前生成式 AI 隐私评估因输出概率性和上下文依赖性而面临的验证危机,并提出了九项摩擦点与改进建议。

Dimitri Staufer, Kirsten Morehouse, David Hartmann, Bettina Berendt

发布于 Fri, 13 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一次"数字照妖镜"的探险报告。作者们开发了一个工具,想看看当你把名字扔进人工智能(AI)的大嘴里时,AI 到底“记住”或“猜”出了关于你的多少秘密。

为了让你更容易理解,我们可以把这篇论文的故事拆解成几个生动的部分:

1. 核心问题:AI 是个“过度热情的八卦邻居”

想象一下,你住在一个巨大的社区里,AI 就是那个读了全社区所有报纸、日记、聊天记录,并且记忆力超群的八卦邻居

  • 现状:这个邻居不仅记得你住哪、叫什么,甚至能根据你穿什么衣服、说什么话,猜出你的性取向、政治立场,甚至你的电话号码。
  • 问题:最可怕的是,你根本不知道他脑子里关于你的“小档案”里写了什么。你想让他忘掉,或者纠正他的错误,却找不到他的“记事本”。

2. 解决方案:LMP2 —— 你的“隐私照妖镜”

为了解决这个问题,作者们开发了一个叫 LMP2 的浏览器工具。

  • 它是怎么工作的
    这就好比你拿着一个特制的手电筒(探针),照向 AI 的黑暗角落。
    • 你输入你的名字。
    • 你告诉 AI:“我想看看你知道关于我的哪些事?”(比如:我的眼睛颜色、我的职业、我的居住地)。
    • AI 会尝试回答。
    • LMP2 会把这些回答整理成一张结果卡片,告诉你:AI 有多确信它猜对了?它猜的内容是什么?

3. 实验发现:AI 的“超能力”与“瞎猜”

作者们用这个工具测试了 8 种不同的 AI 模型,并让 458 个普通人参与体验。结果很有趣:

  • 对名人(如哈利·波特)
    AI 就像个百科全书。如果你问它关于名人的事,它能非常精准地猜出 11 种特征(比如性别、母语、甚至性取向),准确率高达 60% 以上。因为它在网上读过太多关于他们的资料了。
  • 对普通人(如“张三”)
    AI 开始变得像个爱猜谜的算命先生
    • 对于普通人的名字,AI 依然能猜对很多事(比如性别、母语),但这往往不是因为它“记得”你,而是因为它根据名字“猜”的(比如看到名字像男性,就猜是男性)。
    • 最吓人的是:即使你输入一个根本不存在的人名,AI 也会非常自信地编造出一套完整的“人设”(比如:“这个人住在伦敦,是左撇子”)。这说明 AI 在瞎编,但它表现得好像自己很确定一样。

4. 用户的反应:既害怕又想要控制权

研究团队问了参与实验的普通人:“看到 AI 猜对你的事,你感觉如何?”

  • 矛盾的心态:大多数人并不觉得 AI 猜对了就是“侵犯隐私”(毕竟猜对了说明 AI 聪明?)。
  • 真正的诉求:但是,72% 的人表示,他们非常想要一个按钮,可以让他们删除纠正AI 脑子里关于自己的信息。
    • 比喻:就像你不想让邻居在背后乱传你的闲话,哪怕他传的是对的,你也希望有权让他闭嘴,或者让他把记错的账本撕掉。

5. 最大的挑战:为什么这事儿这么难?

论文最后指出,给 AI 做隐私审计(检查它记住了什么)就像在流沙上盖房子,有九大难点:

  1. AI 是“薛定谔的猫”:AI 的回答是概率性的。你问它一次,它说“你住北京”;问它十次,它可能说“你住上海”。这种不确定性让很难证明它到底“记没记住”你。
  2. 分不清是“记忆”还是“猜测”:AI 猜对了你的生日,是因为它真的在训练数据里见过(记忆),还是因为它根据名字猜的(统计规律)?从结果上看,两者一模一样,但法律后果完全不同。
  3. 名字会“撞车”:如果你叫“王小明”,AI 可能会把你和另一个著名的“王小明”搞混,把你的特征安在他身上,或者把他的特征安在你身上。
  4. 时间会“撒谎”:AI 可能记得你 5 年前住在北京,但你去年已经搬走了。AI 的“记忆”是过期的,但它还在自信地告诉你旧信息。
  5. 语言和文化隔阂:目前的工具主要用英语,对于中文名字或其他文化背景,AI 的“猜谜”能力可能会完全失效或产生奇怪的偏见。

总结:我们该怎么办?

这篇论文告诉我们:AI 不仅仅是个聊天机器人,它是个巨大的、不可控的“个人档案库”

  • 现状:我们目前缺乏有效的方法去检查、控制或删除 AI 脑子里关于我们的信息。
  • 未来方向:我们需要设计更好的工具(像 LMP2 这样的),不仅要告诉用户"AI 猜了什么”,还要告诉用户“这个猜测有多大的把握”、“它是猜的还是记的”,并且要给用户纠正和删除的权力。

一句话总结
这就好比你发现你的数字双胞胎(AI 里的你)正在到处乱说话,这篇论文就是教你如何找到它、看清它说了什么,并把它嘴堵上的初步指南。虽然路很难走,但这对于保护我们的隐私至关重要。