Quantifying Uncertainty in AI Visibility: A Statistical Framework for Generative Search Measurement

该论文通过实证研究揭示,生成式搜索中的引用可见性具有显著的非确定性波动,因此主张摒弃单一测量点估计,转而采用统计框架将引用指标视为分布估计量并报告不确定性区间,以避免对域名表现产生误导性解读。

Ronald Sielinski

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给现在的"AI 搜索引擎”做了一次**“体检”**,结果发现了一个大家可能都没注意到的大秘密:AI 给出的答案和引用的来源,其实非常“善变”,就像天气一样捉摸不定。

为了让你更容易理解,我们可以把这篇论文的核心内容想象成一场**“寻找宝藏的寻宝游戏”**。

1. 核心问题:AI 不是复读机,而是“掷骰子”的魔术师

以前我们以为,如果你问 AI 同一个问题,它每次都会给出完全一样的答案和引用来源。
但论文发现,AI 其实是个“掷骰子”的魔术师

  • 比喻:想象你让三个不同的魔术师(Perplexity、SearchGPT、Google Gemini)去同一个宝藏地图(互联网)里找宝藏(引用网站)。
  • 现象:如果你让同一个魔术师连续 10 次去同一个地方找,他每次带回来的宝藏(引用的网站)可能都不一样!有时候是 A 和 B,有时候是 A 和 C,甚至有时候完全变了。
  • 结论:AI 的引用不是固定的“真理”,而是一个随机事件

2. 现在的做法有多危险?“盲人摸象”

现在的很多营销人员或品牌经理,通常只让 AI 回答一次,然后就把这次的结果当作“最终定论”。

  • 比喻:这就像你只摸了一次大象的腿,就敢在报告里写:“大象是一根柱子。”
  • 后果:如果你只测一次,发现“网站 A"被引用了 12%,“网站 B"被引用了 8%,你就觉得 A 比 B 强。
  • 真相:论文通过反复测试发现,如果你多测几次,A 可能变成 6%,B 可能变成 10%。那个"4% 的差距”其实只是噪音,就像你听收音机时的杂音,根本不代表谁真的更强。

3. 论文做了什么?“反复试错”与“画圈”

为了证明这一点,作者们做了大量的实验:

  • 反复测试:他们让 AI 对同一个话题(比如“跑步装备”)问了 200 次,而且是在不同时间、不同频率下问的。
  • 画“安全圈”(置信区间):他们不再只给一个数字(比如"12%"),而是画了一个范围圈(比如"8% 到 16%")。
    • 比喻:以前你只告诉老板“今天气温是 25 度”。现在你告诉老板“今天气温在 20 度到 30 度之间波动”。
    • 发现:很多看起来有差距的品牌,它们的“安全圈”是重叠的。这意味着在统计学上,它们其实打平了,没有谁真的比谁强。

4. 三个“魔术师”的性格差异

论文还发现,这三个 AI 平台的性格(稳定性)完全不同:

  • Perplexity:像个稳重的老工匠。虽然也会变,但变动的幅度比较小,引用的核心网站比较固定。
  • Google Gemini:像个热情的冒险家。它引用的网站非常多(每次回答引用 40 个左右),但变动很大,今天引用的明天可能就不见了。
  • OpenAI SearchGPT:像个精神分裂的艺术家。它有时候非常稳定(对某些问题每次都给一样的答案),有时候又极其不稳定(完全随机)。这种“忽好忽坏”让它最难预测。

5. 为什么这很重要?(给普通人的启示)

这篇论文其实是在给所有做 SEO(搜索引擎优化)或品牌营销的人敲警钟:

  1. 别信“单次截图”:如果你看到 AI 说你的品牌被引用了,别高兴得太早,也别因为没被引用就灰心。这可能只是运气好或运气坏。
  2. 需要“多次采样”:想要知道真实的排名,不能只问一次。你需要像科学家做实验一样,问很多次,算出一个平均值和波动范围
  3. 排名是流动的:在 AI 的世界里,今天的“第一名”明天可能掉到第十名,这不是你的内容变差了,而是 AI 的“骰子”又掷出了不同的结果。

总结

这篇论文就像是在说:“在这个 AI 时代,不要追求‘绝对精确’的排名,要接受‘概率’和‘波动’。”

如果你只盯着一次测量的结果看,就像是在暴风雨中试图看清远处的灯塔,看到的只是闪烁的光影。只有当你退后一步,观察一段时间内的整体波动(画个圈),你才能真正看清灯塔在哪里。

一句话总结:AI 引用的排名不是“定局”,而是一场“概率游戏”。想要看清真相,必须多测几次,并给结果加上“波动范围”的标签。