AgentA/B: Automated and Scalable Web A/BTesting with Interactive LLM Agents

该论文提出了 AgentA/B 系统,利用具备多样化人设的大型语言模型智能体自动模拟用户在真实网页上的交互行为,从而克服传统 A/B 测试对大规模真人流量和长等待时间的依赖,实现可扩展且高效的自动化 UI/UX 评估。

Yuxuan Lu, Ting-Yao Hsu, Hansu Gu, Limeng Cui, Yaochen Xie, William Headden, Bingsheng Yao, Akash Veeragouni, Jiapeng Liu, Sreyashi Nag, Jessie Wang, Dakuo Wang

发布于 Thu, 12 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Agent A/B 的新系统,它利用人工智能(AI)来帮网站设计师做“试衣服”的工作,而且是在真正让真人顾客看到之前。

我们可以把这项技术想象成给网站设计请了一群“虚拟替身演员”

🎭 核心故事:为什么我们需要“虚拟演员”?

想象一下,你是一家大超市(比如亚马逊)的经理,你想在货架上做一个新的小改动:把原本密密麻麻的“筛选标签”(比如按价格、品牌、颜色筛选)简化一下,只保留最相关的几个。

传统的做法(真人测试)是这样的:

  1. 找演员: 你得花钱雇成千上万个真实的顾客来逛超市。
  2. 排期难: 顾客都很忙,很难凑齐这么多人同时来。
  3. 成本高: 雇人、发工资、组织活动,非常烧钱。
  4. 风险大: 如果这个新设计很难用,导致顾客买不到东西,那损失的就是真金白银和顾客的信任。
  5. 速度慢: 等数据收集回来,可能已经过了好几个月,你的竞争对手早就把新设计上线了。

Agent A/B 的做法(虚拟演员)是这样的:
你不需要雇真人,而是用 AI 生成 1000 个“虚拟顾客”。这些虚拟顾客不是冷冰冰的机器人,而是拥有不同性格、年龄、职业和购物习惯的“数字替身”

🤖 这个系统是如何工作的?(三步走)

第一步:造人(生成虚拟顾客)
系统会像写小说一样,创造出各种各样的“人”。

  • 有的叫“老张”,60 岁,喜欢买便宜货,动作慢。
  • 有的叫“小李”,25 岁,科技达人,喜欢搜高端产品,动作快。
  • 系统会确保这群“虚拟顾客”的构成和真实世界的人口比例差不多。

第二步:演戏(模拟购物)
这些虚拟顾客被分成两组,进入两个不同的“虚拟超市”:

  • A 组(对照组): 看到原来的、密密麻麻的筛选标签。
  • B 组(实验组): 看到新的、简化后的筛选标签。
    然后,AI 指挥这些虚拟顾客开始“表演”:搜索商品、点击筛选、加入购物车、付款。整个过程在电脑里自动运行,几秒钟就能模拟出人类需要几天才能完成的购物行为。

第三步:看剧本(分析结果)
系统会立刻告诉设计师:

  • “老板,用新设计的 B 组,虚拟顾客买得更多了!”
  • “而且,‘老张’们觉得新设计更友好,但‘小李’们好像觉得选项变少了有点不爽。”
  • “如果我们要上线,预计能多赚多少钱。”

🌟 论文里的真实案例:亚马逊的“筛选器”实验

研究人员真的在亚马逊(Amazon)上做了这个实验:

  • 任务: 测试“简化筛选列表”是否比“完整筛选列表”更好。
  • 规模: 他们派出了 1000 个 AI 虚拟顾客(500 个看旧版,500 个看新版)。
  • 结果: AI 发现,看新版的顾客买的东西更多了,而且花钱也稍微多了一点点。
  • 神奇之处: 这个结果和后来亚马逊真正让 200 万真人 做的实验结果方向完全一致

这意味着,AI 虚拟顾客虽然不能 100% 替代真人,但它们能非常准确地预测真人会怎么反应。

💡 为什么这很酷?(三大好处)

  1. 省钱省时间(像试穿一样快):
    以前改个设计要等几个月,现在只要几个小时。就像你在买衣服前,先让 AI 帮你“试穿”一下,看看好不好看,而不是直接买回家发现不合适再退。

  2. 零风险(安全屋):
    如果新设计很烂,AI 会告诉你“这不行”,你直接放弃,不会损失任何一个真人的体验,也不会让公司赔钱。

  3. 包容性(照顾到少数群体):
    在真人测试中,很难找到足够多的“老年人”或“特定职业”的人来测试。但在 AI 世界里,你可以瞬间生成 100 个“老年虚拟顾客”,专门看看新设计对他们是否友好。这能让设计更公平。

🚫 它不是要取代真人

作者特别强调:AI 不是要取代真人测试,而是作为“预演”工具。
就像电影开拍前,导演会先让演员走位、排练(Agent A/B),确定大方向没问题了,再正式开机拍摄(真人 A/B 测试)。这样既保证了效率,又保留了真人测试的最终把关作用。

总结

Agent A/B 就像是给网站设计师配了一个**“平行宇宙模拟器”**。在这个宇宙里,你可以用极低的成本、极快的速度,让成千上万个“虚拟居民”帮你试错,从而在真正面对真人用户之前,就把最好的设计呈现出来。