LLM-Enhanced Topical Trend Detection at Snapchat

Questo articolo presenta il primo sistema end-to-end su scala produttiva per rilevare tendenze tematiche su Snapchat, che integra estrazione multimodale, rilevamento di picchi nelle serie temporali e arricchimento basato su LLM per migliorare significativamente la freschezza dei contenuti e l'esperienza utente attraverso un dispiegamento globale.

Autori originali: Hangqi Zhao, Jay Li, Abhiruchi Bhattacharya, Cong Ni, Jason Yeung, Jinchao Ye, Kai Yang, Akshat Malu, Manish Malik

Pubblicato 2026-05-01
📖 4 min di lettura☕ Lettura da pausa caffè

Questa è una spiegazione generata dall'IA dell'articolo qui sotto. Non è stata scritta né approvata dagli autori. Per precisione tecnica, consulta l'articolo originale. Leggi il disclaimer completo

Each language version is independently generated for its own context, not a direct translation.

Immagina Snapchat come una vasta e vivace città digitale dove milioni di persone pubblicano costantemente brevi video. In questa città, le "tendenze" sono come improvvisi, enormi festival di strada o mode virali che sorgono dal nulla. La sfida per Snapchat è che questa città è troppo grande e si muove troppo velocemente perché un team umano possa sorvegliare ogni angolo e individuare questi festival mentre nascono.

Questo documento descrive un nuovo sistema automatizzato "Sorveglianza della Città" costruito dagli ingegneri di Snapchat per individuare queste tendenze nel momento in cui iniziano, utilizzando una speciale forma di intelligenza artificiale chiamata Modello Linguistico di Grande Dimensione (LLM).

Ecco come funziona il sistema, suddiviso in quattro semplici passaggi:

1. Gli "Occhi e le Orecchie" (Estrazione degli Argomenti)

Innanzitutto, il sistema deve comprendere cosa sta accadendo nei video. Poiché i video sono un mix di immagini, suoni e testo, il sistema utilizza un team di "detective" AI.

  • Il Detective Visivo: Esamina i fotogrammi del video per individuare quali oggetti o scene sono presenti (come un cane, una spiaggia o un concerto).
  • Il Detective Audio: Ascolta ciò che le persone dicono (da voce a testo).
  • Il Detective del Testo: Legge eventuali parole scritte sullo schermo o nella didascalia.
  • Il Riassuntore: Una volta raccolti questi indizi, una potente AI (l'LLM) agisce come un giornalista esperto. Prende tutte quelle informazioni disordinate e scrive un titolo breve e chiaro per il video, come "Persone che ballano su una nuova canzone" invece di una semplice lista di parole casuali.

2. Il "Rilevatore di Picchi" (Rilevamento delle Esplosioni)

Il fatto che un video riguardi i "cani" non significa che sia una tendenza; le persone pubblicano contenuti sui cani ogni giorno. Il sistema deve sapere quando qualcosa diventa improvvisamente popolare.

  • Immagina una strada tranquilla dove solitamente passano 5 persone all'ora. Improvvisamente, nella successiva ora, si presentano 500 persone. Questo è un "picco".
  • Il sistema traccia quanti utenti unici stanno pubblicando su un argomento specifico. Ignora quanti stanno guardando (per evitare distorsioni) e si concentra su quanti stanno creando.
  • Utilizza una formula matematica per confrontare i numeri di oggi con il recente passato. Se il numero di creatori aumenta significativamente, il sistema lo segnala come una potenziale tendenza.

3. Il "Controllo di Qualità" (Post-Elaborazione)

Non ogni picco è una buona tendenza. A volte un picco è solo un errore, spam o qualcosa di troppo vago come "video divertenti".

  • Il Filtro: Il sistema utilizza regole AI per scartare argomenti scadenti. Rimuove tutto ciò che è troppo ampio (ad esempio, "vita") o tutto ciò che viola le regole di sicurezza (contenuti sensibili o non sicuri).
  • L'Unione: A volte il sistema individua "Mondiali 2026", "Mondiali" e "Qualificazioni ai Mondiali" come tre cose separate. L'AI capisce che in realtà si tratta dello stesso evento e li unisce in un'unica tendenza pulita chiamata "Mondiali 2026". Questo mantiene l'elenco ordinato e facile da comprendere.

4. Il "Narratore" (Arricchimento della Tendenza)

Una volta confermata una tendenza, il sistema non si limita a darle un nome; costruisce un profilo per essa.

  • Seleziona alcuni video rappresentativi della tendenza e chiede a un'AI super-intelligente di scrivere un riassunto, assegnare una categoria (come "Sport" o "Notizie") ed elencare quali paesi ne stanno parlando di più.
  • Pensa a questo come alla trasformazione di un dato grezzo in una scheda di notizie rifinita che il resto dell'app può utilizzare.

Perché è Importante? (I Risultati)

Il documento riporta che questo sistema è stato testato ed è ora operativo a livello globale su Snapchat.

  • Accuratezza: Quando gli esseri umani hanno verificato il lavoro del sistema per sei mesi, è stato corretto nel 92,8% dei casi.
  • Impatto Reale: Il sistema è ora utilizzato per aiutare a decidere quali video appaiono sul tuo schermo (classifica) e quali suggerimenti appaiono quando digiti nella barra di ricerca.
  • Il Risultato: Poiché il sistema individua le tendenze più velocemente, gli utenti vedono contenuti più freschi e pertinenti. I test hanno mostrato che agli utenti piacevano di più i contenuti (tassi di "mi piace" più alti) e hanno trascorso più tempo guardando storie che facevano parte di queste nuove tendenze.

In breve, questo documento descrive un modo intelligente e automatizzato per Snapchat di ascoltare il "brusio" di tutta la sua base utenti, filtrare il rumore e dire istantaneamente all'app: "Ehi, tutti stanno parlando di questo proprio ora—mostriamolo alle persone!"

Sommerso dagli articoli nel tuo campo?

Ricevi digest giornalieri degli articoli più recenti corrispondenti alle tue parole chiave di ricerca — con riassunti tecnici, nella tua lingua.

Prova Digest →