Social Proof is in the Pudding: The (Non)-Impact of Social Proof on Software Downloads

该研究通过在 GitHub 上进行的两项现场实验发现,人为操纵开源软件的社会证明指标(如点赞数和下载量)并不能显著影响开发者的下载行为或项目活跃度,表明此类指标难以被恶意利用来诱导软件选择。

Lucas Shen, Gaurav Sood

发布于 Tue, 10 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常有趣且贴近我们日常生活的问题:在挑选软件时,我们是不是太容易相信“人多力量大”了?

想象一下,你走进一家从未去过的餐厅。门口有两张菜单:

  1. A 餐厅:门口排着长队,墙上贴着“本月最佳”、“点赞 10 万+"的招牌。
  2. B 餐厅:冷冷清清,墙上空空如也。

你会选哪家?大多数人会选 A。这就是**“社会认同”(Social Proof)**的力量:我们倾向于认为,别人都在用的东西,肯定是个好东西。

在开源软件的世界里(比如程序员用的 Python 库),这种心理同样存在。程序员在找工具时,往往没时间把每个代码都读一遍,于是他们看两个指标:

  • GitHub 上的“星标”(Stars):就像餐厅门口的“点赞数”。
  • PyPI 上的“下载量”:就像餐厅的“翻台率”或“销量”。

坏蛋的阴谋
这就引出了一个担忧:如果坏人(黑客)花钱买了很多假“星标”或刷了很多假“下载量”,把烂软件包装成“网红软件”,程序员会不会被骗去下载,从而让电脑中毒?

作者做了什么实验?
为了验证这个担忧,作者 Lucas Shen 和 Gaurav Sood 做了两个大胆的“田野实验”(Field Experiments),就像在现实世界里做了一场“压力测试”。

实验一:给新软件“刷”星星

  • 场景:他们在 GitHub 上找了一堆刚发布的、没人知道的新 Python 软件包。
  • 操作
    • 给其中一部分软件包花钱买了“星标”(就像给新开的店刷好评)。
    • 给另一部分软件包让朋友去点“星标”(就像让朋友去给新店捧场)。
    • 剩下的软件包什么都不做(作为对照组)。
  • 结果
    • 虽然这些软件包的“星星”数量确实变多了(从 0 变成了几十颗),但是,下载它们的人并没有变多!
    • 就像你给一家新开的、没人知道的小店刷了 100 个好评,但路过的顾客依然不进去吃饭,因为他们觉得“这店太新了,好评可能是刷的”,或者他们有更专业的判断标准。

实验二:给软件“刷”下载量

  • 场景:他们在官方下载平台(PyPI)上,找了一些下载量很少的软件。
  • 操作:写了一个脚本,自动把这些软件下载了 100 次,让它们的官方下载数据看起来翻了 5 倍。
  • 结果
    • 虽然下载数据确实变大了,但是,并没有吸引到更多真实的人类用户去下载。
    • 这就像你给一家餐厅刷了 1000 个“今日销量”,但第二天来的顾客依然不多,因为他们可能更看重菜品味道,或者根本不信这个数据。

为什么会出现这种“反直觉”的结果?

作者解释说,程序员和我们在餐厅选菜不太一样:

  1. 后果很严重:选错餐厅顶多难吃一顿饭;选错软件可能导致代码崩溃、数据泄露甚至电脑中毒。所以,程序员不敢只凭“人多”就盲目跟风。他们会更仔细地看代码文档、更新频率、作者是谁等“硬核”指标。
  2. 大家都知道了:现在网上大家都知道“刷星”和“刷量”是有黑产的。就像大家都知道有些网红店是“托”一样,大家看到突然暴涨的数据,第一反应往往是“这数据有猫腻”,而不是“这东西真好”。
  3. 信号失效:当“点赞”变得太便宜、太容易买到时,它就不再是一个能代表质量的信号了。

结论与启示

结论
在这项研究中,仅仅靠“刷数据”(Social Proof)并没有成功骗到程序员去下载软件。 坏人们想靠买星星来推广恶意软件,在这个特定的实验环境下,并没有奏效。

但是,作者也留了一手(警示):

  • 实验力度有限:他们只刷了一点点数据(比如从 0 刷到 20 个星),如果坏人像商业广告那样大规模、长期地刷数据,效果可能会不一样。
  • 新风险:随着人工智能(AI)编程助手的发展,未来的软件选择可能不再由人决定,而是由 AI 决定。如果 AI 只看数据不看代码,那“刷数据”的威胁可能会变大。

一句话总结
在软件世界里,“从众心理”并没有像我们想象的那样容易被操纵。程序员们虽然也会看“人气”,但面对潜在的安全风险,他们比我们要谨慎得多,不会轻易被“虚假繁荣”的数据忽悠。不过,平台方(如 GitHub)还是得时刻警惕,防止坏人把“刷数据”玩出花来。