Tracker Installations Are Not Created Equal: Understanding Tracker Configuration of Form Data Collection

该研究通过定性分析与大规模测量,揭示了 Google 和 Meta 的追踪器在文档引导及默认配置中鼓励网站收集用户表单中的个人敏感信息(PII),并发现尽管 Google 追踪器部署更广泛,但 Meta 追踪器配置为收集表单数据的比例更高,且部分金融与健康类网站存在违规收集行为。

Julia B. Kieserman, Athanasios Andreou, Chris Geeng, Tobias Lauinger, Damon McCoy

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一次**“数字侦探行动”**,由纽约大学等机构的研究人员发起,旨在揭开一个我们每天都在经历、却很少注意到的秘密:当你填写网站上的表格(比如注册账号、订阅新闻、预约医生)时,你的个人信息到底去了哪里?

为了让你更容易理解,我们可以把这篇论文的研究过程想象成**“检查两家超级大超市(Google 和 Meta)给小商店提供的‘智能收银机’”**。

1. 核心故事:两家“收银机”的不同套路

想象一下,Google 和 Meta(Facebook 的母公司)是两家巨头,它们向全球的小网站(比如医院、银行、商店)免费提供一种叫“追踪器”的智能收银机

  • 它的功能:不仅能记录谁进了店,还能自动扫描顾客在收银台填写的表格,把名字、电话、邮箱等**“个人敏感信息”(PII)**偷偷抄下来,传给 Google 或 Meta,用来给你打更精准的广告。
  • 研究目的:研究人员想知道,这些“收银机”到底被设置成“自动抄写”模式了吗?如果是,有多少网站在偷偷这么做?

2. 发现一:说明书里的“陷阱” (文档分析)

研究人员首先像**“用户体验侦探”**一样,仔细研读了 Google 和 Meta 给网站管理员看的“操作说明书”和“设置界面”。

  • Meta 的套路(热情过头的推销员)

    • Meta 的设置流程就像是一个**“热情过头的推销员”**。当你安装它的追踪器时,它会直接弹窗问:“要不要开启自动收集顾客信息?”
    • 陷阱:它默认把“开启”按钮选好了,而且把所有能收集的信息(名字、电话、邮箱等 11 项)都默认勾选。如果你不想被收集,你得主动去取消勾选
    • 误导:它还在说明书里说:“别担心,我们给数据加了‘哈希’(Hashing,一种加密)处理,很安全。”
    • 真相:研究人员指出,这就像推销员说“我把你的身份证号涂黑了,所以很安全”,但实际上,只要手里有钥匙(Meta 的数据库),涂黑的身份证号依然能轻易还原成你的真实身份。美国联邦贸易委员会(FTC)早就说过,这种“哈希”并不能真正保护隐私。
  • Google 的套路(复杂的迷宫)

    • Google 的设置流程像是一个**“复杂的迷宫”**。它没有像 Meta 那样直接弹窗让你选“开启”,而是把功能藏得很深。
    • 矛盾:它的说明书里一方面说“严禁发送个人身份信息”,另一方面又教你怎么收集。这种自相矛盾让网站管理员(很多是非技术人员)感到困惑,不知道到底该不该开,或者开了会不会违规。

3. 发现二:大规模“实地抽查” (测量研究)

为了验证这些理论,研究团队像**“网络警察”一样,扫描了40,150 个**热门网站(包括医院、银行、普通商店等)。他们给每个网站都塞了一个假的“填表机器人”,看看这些“智能收银机”会不会把假数据偷偷传回去。

惊人的结果:

  • Google 更常见,但 Meta 更“贪婪”

    • Google 追踪器安装在 72.6% 的网站上(非常普遍)。
    • Meta 追踪器只安装在 28.2% 的网站上。
    • 但是! 一旦安装了 Meta 追踪器,62.3% 的网站都默认开启了“自动收集个人信息”的功能。
    • 相比之下,Google 追踪器开启这个功能的只有 11.6%
    • 比喻:Google 的收银机虽然到处都是,但大多数是关着“偷听”功能的;而 Meta 的收银机虽然少一些,但只要装上了,绝大多数都开着“偷听”模式
  • 敏感行业的“漏网之鱼”

    • 法律规定,医院(医疗)和银行(金融)网站严禁自动收集用户的敏感信息。
    • Meta 和 Google 也声称会限制这些行业的自动收集功能。
    • 但是,研究发现,许多真正的医院和银行网站(比如戒毒中心、信用卡公司)依然配置了自动收集功能。
    • 原因:这些网站在设置时,可能自己选错了行业分类(比如把自己标成了“普通商业”而不是“医疗”),或者管理员根本不知道这个开关意味着什么,就顺着默认设置点了“下一步”。

4. 他们收集了什么?

对于 Meta 追踪器,研究发现:

  • 99.5% 开启收集的网站都在偷邮箱
  • 93.7% 在偷全名
  • 93.5% 在偷电话号码
  • 这三样东西凑在一起,基本上就能精准锁定你是谁了。

5. 总结与启示

这篇论文告诉我们一个残酷的现实:隐私泄露往往不是因为黑客技术有多高深,而是因为“默认设置”和“误导性的说明书”。

  • 网站管理员(很多是普通的市场人员或外包公司)并不是坏人,他们只是被 Google 和 Meta 的**“默认勾选”“模糊建议”**给带偏了。
  • Google 和 Meta 为了商业利益,把“收集隐私”包装成了“优化广告效果”的必备功能,并暗示“加密了就很安全”,实际上是在利用用户的无知

给普通人的建议:

  1. 警惕表单:在敏感网站(医疗、金融)填写信息时,要格外小心。
  2. 使用工具:可以使用广告拦截插件(Ad Blockers),它们有时能阻止这些追踪器发送数据。
  3. 推动改变:这项研究呼吁监管机构(如 FTC)介入,要求 Google 和 Meta 修改他们的设置界面,把“关闭收集”设为默认,并停止使用“哈希加密很安全”这种误导性宣传。

一句话总结:
Google 和 Meta 给网站管理员递了一把**“默认开启的隐私收割机”**,并告诉他们“这很安全,不用管”。结果,无数敏感网站在不知情的情况下,把用户的名字、电话和邮箱源源不断地送进了广告巨头的数据库。