Each language version is independently generated for its own context, not a direct translation.
想象一下,Snapchat 是一座庞大而繁忙的数字城市,数百万用户在此不断发布短视频。在这座城市里,“趋势”就像突然涌现的盛大街头庆典或病毒式舞蹈热潮,往往凭空出现。Snapchat 面临的挑战在于,这座城市过于庞大且运转太快,任何人类团队都无法监控每个角落并在这些庆典初现端倪时及时察觉。
本文介绍了一种由 Snapchat 工程师构建的全新自动化“城市守望”系统,该系统利用一种名为大语言模型(LLM)的特殊人工智能,在趋势萌芽的瞬间将其识别出来。
以下是该系统的运作原理,分为四个简单步骤:
1. “耳目”(主题提取)
首先,系统需要理解视频中正在发生的内容。由于视频是画面、声音和文本的混合体,系统使用了一支由 AI“侦探”组成的团队。
- 视觉侦探:查看视频帧,识别其中的物体或场景(例如狗、海滩或音乐会)。
- 听觉侦探:听取人们所说的话(语音转文本)。
- 文本侦探:读取屏幕上或标题中的任何文字。
- 总结者:一旦收集到这些线索,一个强大的 AI(即 LLM)便像一位熟练的记者。它将所有杂乱的信息整合起来,为视频撰写简短清晰的标题,例如“人们正在随着新歌起舞”,而不仅仅是一堆随机词汇的列表。
2. “激增探测器”(爆发检测)
仅仅因为一段视频是关于“狗”的,并不意味着它就是趋势;人们每天都在发布关于狗的内容。系统需要知道何时某事物突然变得流行。
- 想象一条安静的街道,通常每小时有 5 人经过。突然,下一小时内出现了 500 人。这就是一次“激增”。
- 系统追踪有多少独特的用户在发布关于特定主题的内容。它忽略有多少人在观看(以避免偏差),而专注于有多少人在创作。
- 它使用数学公式将今日的数据与近期过去进行对比。如果创作者的数量显著激增,系统便会将其标记为潜在趋势。
3. “质量控制”(后处理)
并非每一次激增都是好的趋势。有时激增只是故障、垃圾信息,或者是像“搞笑视频”这样过于模糊的内容。
- 过滤器:系统利用 AI 规则剔除不良主题。它会移除过于宽泛的内容(例如“生活”)或任何违反安全规则的内容(敏感或不安全内容)。
- 合并器:有时系统会将"2026 年世界杯”、“世界杯”和“世界杯预选赛”识别为三个独立的事物。AI 意识到这些实际上是同一事件,并将它们合并为一个单一、清晰的趋势,即"2026 年世界杯”。这保持了列表的整洁和易于理解。
4. “讲述者”(趋势丰富化)
一旦趋势得到确认,系统不仅会为其命名,还会为其建立档案。
- 它会从该趋势中挑选几段代表性视频,并请求一个超级智能的 AI 撰写摘要、分配类别(如“体育”或“新闻”),并列出哪些国家在讨论它最多。
- 这相当于将原始数据点转化为应用程序其余部分可使用的精美新闻卡片。
这为何重要?(结果)
该论文报告称,该系统已经过测试,目前正全球范围内在 Snapchat 上运行。
- 准确性:当人类在六个月内检查系统的工作时,其正确率达到了92.8%。
- 现实世界影响:该系统现已被用于帮助决定哪些视频会出现在您的屏幕上(排名),以及在您输入搜索栏时会出现哪些建议。
- 结果:由于该系统能更快地发现趋势,用户能看到更新鲜、更相关的内容。测试表明,用户更喜欢这些内容(“点赞”率更高),并且花费更多时间观看属于这些新趋势的故事。
简而言之,本文描述了一种智能、自动化的方式,让 Snapchat 能够倾听其整个用户群体的“喧嚣”,过滤掉噪音,并立即告诉应用程序:“嘿,所有人此刻都在谈论这个——让我们把它展示给大家!”
Each language version is independently generated for its own context, not a direct translation.
以下是论文《Snapchat 上的大语言模型增强型话题趋势检测》的详细技术摘要,该论文已被 SIGIR 2026 录用。
1. 问题陈述
本文解决了在短视频社交媒体平台(特别是 Snapchat)上大规模自动检测话题趋势的挑战。与传统的基于文本的网络不同,短视频平台面临独特的困难:
- 多模态复杂性:内容包含视频、音频和文本,需要可扩展的系统来处理异构数据。
- 微弱信号检测:趋势往往通过分散在各个社区中的微弱信号涌现,使得早期检测变得困难。
- 快速生命周期:趋势演变迅速,需要在保持对噪声、垃圾信息和歧义具有鲁棒性的同时,实现近乎实时的适应。
- 规模:系统必须处理全球平台上每日产生的海量内容。
目标是识别那些内容创作量显著增加的新兴话题,以改善内容曝光、个性化推荐和创作者参与度。
2. 方法论
作者提出了一种由大语言模型(LLMs)和视觉 - 语言模型(VLMs)驱动的端到端可扩展系统。该流水线分为四个不同的阶段:
A. 系统概览
系统按固定周期运行以确保内容的新鲜度。它处理来自“Snap"(用户视频)和发布者内容的多模态信号。
B. 步骤 1:多模态话题提取
- 输入处理:视频由轻量级多模态模型处理,以生成文本信号:
- 视觉:VLM(例如 BLIP2)分析采样帧,从固定分类法中生成视觉标签。
- 音频:自动语音识别(ASR)生成转录文本。
- 文本:光学字符识别(OCR)提取屏幕上的文本。
- 统一:将这些信号与用户提供的标题和标签合并为单一的文本表示。
- 摘要:一个纯文本LLM将此表示总结为自由形式的话题短语或实体(而不是从固定分类法中选择),为下游分析创建候选话题。
C. 步骤 2:时间序列爆发检测
- 指标:系统跟踪随时间推移发布特定话题的**唯一用户(UUs)**数量。排除观众端信号以避免排名算法带来的偏差。
- 算法:应用多尺度爆发检测算法:
- 预过滤:移除唯一用户数少于 M 的话题,以减少长尾噪声。
- 移动最大值与平均值:滑动窗口计算用户数量的移动最大值,随后计算这些最大值的移动平均值,以建立稳健的基线。
- 提升计算:将“提升分数”计算为当前活动与平滑基线的比率。
- 趋势评分:使用加权调和平均数聚合多个时间窗口内的提升值。这强调了近期活动,同时惩罚微弱信号,确保只有持续的多尺度增长才能获得高分。
D. 步骤 3:后处理(LLM 增强)
此阶段对候选项进行细化,以确保质量和合规性:
- 敏感内容过滤:LLM 检测并移除违反安全政策的话题。
- 通用性过滤:LLM 移除缺乏具体性的过于宽泛的话题(例如“搞笑视频”)。
- 精度控制:利用趋势分数和用户层级的自适应阈值过滤结果。
- 话题整合:LLM 将语义相似的话题(例如"2026 年世界杯”和“世界杯”)聚类,并选择最具代表性的规范形式以消除冗余。
E. 步骤 4:趋势丰富化
为了使趋势对下游系统具有可操作性:
- MLLM 分析:多模态 LLM(例如 Gemini 2.0 Flash)分析与该趋势相关的一组代表性视频,生成简洁的描述。
- 综合:一个纯文本 LLM 聚合这些描述,生成人类可读的摘要,提取关键细节,分配规范类别(例如体育、新闻),并生成结构化元数据(例如主要国家、检测时间)。
3. 主要贡献
- 首个生产级端到端系统:这是首个在短视频平台上以生产规模发布的话题趋势检测系统。
- 混合架构:创新性地集成了多模态话题提取、时间序列爆发建模以及基于 LLM 的整合与丰富化。
- 高效的 LLM 利用:一种平衡语义准确性与计算效率的策略,即使用轻量级模型进行全量提取,仅对部分数据使用更重的 MLLM 进行丰富化。
- 全面评估:通过持续的离线人工评估和在线 A/B 测试的可衡量改进,证明了其高精度。
4. 结果
离线评估
- 精度:在六个月期间(2025 年 7 月至 12 月),独立标注员审查了 1,278 个趋势。系统实现了92.8% 的总体精度。
- 灵敏度:选择 1.8 的趋势分数阈值用于生产,以优化精度与覆盖率之间的权衡。
在线 A/B 测试
该系统已全球部署并集成到内容排名和搜索中。主要改进包括:
- 内容排名:
- Spotlight 故事浏览量(美国):+0.86%
- 内容点赞率:+11.5%(表明用户对及时内容的强烈偏好)。
- 内容时效性(<1 天):+1.89%
- 搜索:
- 曝光时效性(<3 天):+2.38%
- 热门账号打开率(美国):+26%
- PostType 放弃率:-1.28%(降低)。
5. 意义
这项工作证明了在大规模现实环境中,将大语言模型与传统的信息检索和时间建模相结合的实践可行性。
- 平台影响:它使 Snapchat 能够动态曝光新鲜、具有文化相关性的内容,直接改善了用户体验和创作者参与度。
- 研究贡献:它为处理短视频数据的异构性和噪声提供了蓝图,表明 LLM 可以有效地弥合原始多模态信号与结构化、可操作的趋势情报之间的差距。
- 可扩展性:该架构证明了通过策略性地将任务在轻量级提取和重度丰富化之间进行划分,LLM 可以以具有成本效益的方式在全球规模上部署。