LLM-Enhanced Topical Trend Detection at Snapchat

Dieses Papier stellt das erste produktionsreife, durchgängige System zur Erkennung thematischer Trends auf Snapchat vor, das multimodale Extraktion, Zeitreihen-Burst-Erkennung und LLM-basierte Anreicherung integriert, um durch eine globale Bereitstellung die Aktualität von Inhalten und das Nutzererlebnis erheblich zu verbessern.

Ursprüngliche Autoren: Hangqi Zhao, Jay Li, Abhiruchi Bhattacharya, Cong Ni, Jason Yeung, Jinchao Ye, Kai Yang, Akshat Malu, Manish Malik

Veröffentlicht 2026-05-01
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich Snapchat als eine riesige, geschäftige digitale Stadt vor, in der Millionen von Menschen ständig kurze Videos posten. In dieser Stadt sind „Trends" wie plötzliche, massive Straßenfeste oder virale Tanzwahn, die aus dem Nichts auftauchen. Die Herausforderung für Snapchat besteht darin, dass diese Stadt zu groß ist und sich zu schnell bewegt, als dass ein menschliches Team jede Ecke beobachten und diese Feste beim Entstehen erkennen könnte.

Dieser Artikel beschreibt ein neues, automatisiertes „City Watch"-System, das von Snapchat-Ingenieuren entwickelt wurde, um diese Trends im Moment ihres Beginns zu erkennen, indem ein spezieller Typ künstlicher Intelligenz namens Large Language Model (LLM) eingesetzt wird.

So funktioniert das System, aufgeschlüsselt in vier einfache Schritte:

1. Die „Augen und Ohren" (Themenextraktion)

Zunächst muss das System verstehen, was in den Videos passiert. Da Videos eine Mischung aus Bildern, Tönen und Text sind, nutzt das System ein Team von KI-„Detektiven".

  • Der visuelle Detektiv: Schaut sich die Videobilder an, um zu erkennen, welche Objekte oder Szenen vorhanden sind (wie ein Hund, ein Strand oder ein Konzert).
  • Der Audio-Detektiv: Hört zu, was die Menschen sagen (Sprache-zu-Text).
  • Der Text-Detektiv: Liest alle Wörter, die auf dem Bildschirm oder in der Bildunterschrift stehen.
  • Der Zusammenfasser: Sobald diese Hinweise gesammelt sind, agiert eine leistungsstarke KI (das LLM) wie ein erfahrener Journalist. Sie nimmt all diese unordentlichen Informationen und schreibt eine kurze, klare Überschrift für das Video, wie „Menschen tanzen zu einem neuen Song", anstatt nur eine Liste zufälliger Wörter zu liefern.

2. Der „Anstiegs-Detektor" (Burst Detection)

Nur weil ein Video über „Hunde" handelt, bedeutet das nicht, dass es ein Trend ist; Menschen posten täglich über Hunde. Das System muss wissen, wann etwas plötzlich populär wird.

  • Stellen Sie sich eine ruhige Straße vor, an der normalerweise fünf Personen pro Stunde vorbeigehen. Plötzlich tauchen in der nächsten Stunde 500 Personen auf. Das ist ein „Burst" (Ansturm).
  • Das System verfolgt, wie viele einzigartige Personen über ein bestimmtes Thema posten. Es ignoriert, wie viele Menschen schauen (um Verzerrungen zu vermeiden), und konzentriert sich darauf, wie viele erstellen.
  • Es verwendet eine mathematische Formel, um die Zahlen von heute mit der jüngsten Vergangenheit zu vergleichen. Wenn die Anzahl der Ersteller signifikant ansteigt, markiert das System dies als potenziellen Trend.

3. Die „Qualitätskontrolle" (Nachbearbeitung)

Nicht jeder Anstieg ist ein guter Trend. Manchmal ist ein Anstieg nur ein Fehler, Spam oder etwas zu Vages wie „lustige Videos".

  • Der Filter: Das System verwendet KI-Regeln, um schlechte Themen auszusortieren. Es entfernt alles, was zu allgemein ist (z. B. „Leben") oder was gegen Sicherheitsregeln verstößt (sensible oder unsichere Inhalte).
  • Der Zusammenführer: Manchmal erkennt das System „Weltmeisterschaft 2026", „Weltmeisterschaft" und „Weltmeisterschafts-Qualifikation" als drei separate Dinge. Die KI erkennt, dass dies tatsächlich dasselbe Ereignis ist, und führt sie zu einem einzigen, sauberen Trend namens „Weltmeisterschaft 2026" zusammen. Dies hält die Liste ordentlich und leicht verständlich.

4. Der „Geschichtenerzähler" (Trend-Erweiterung)

Sobald ein Trend bestätigt ist, gibt das System ihm nicht nur einen Namen; es erstellt ein Profil dafür.

  • Es wählt einige repräsentative Videos aus dem Trend aus und bittet eine superkluge KI, eine Zusammenfassung zu schreiben, eine Kategorie zuzuweisen (wie „Sport" oder „Nachrichten") und aufzulisten, in welchen Ländern am meisten darüber gesprochen wird.
  • Denken Sie daran wie daran, einen rohen Datenpunkt in eine polierte Nachrichtenkarte zu verwandeln, die der Rest der App verwenden kann.

Warum ist das wichtig? (Die Ergebnisse)

Der Artikel berichtet, dass dieses System getestet wurde und nun global auf Snapchat läuft.

  • Genauigkeit: Als Menschen die Arbeit des Systems über sechs Monate hinweg überprüften, lag die Korrektheit bei 92,8 %.
  • Auswirkung in der realen Welt: Das System wird nun verwendet, um zu entscheiden, welche Videos auf Ihrem Bildschirm angezeigt werden (Ranking), und welche Vorschläge erscheinen, wenn Sie in die Suchleiste tippen.
  • Das Ergebnis: Da das System Trends schneller erkennt, sehen die Nutzer frischere, relevantere Inhalte. Die Tests zeigten, dass die Nutzer die Inhalte mehr mochten (höhere „Gefällt-mir"-Raten) und mehr Zeit damit verbrachten, Stories anzusehen, die Teil dieser neuen Trends waren.

Kurz gesagt beschreibt dieser Artikel eine intelligente, automatisierte Methode für Snapchat, den „Lärm" seiner gesamten Nutzerbasis zu hören, den Rauschen herauszufiltern und der App sofort zu sagen: „Hey, alle reden gerade darüber – lass es uns den Leuten zeigen!"

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →