LLM-Enhanced Topical Trend Detection at Snapchat

Este artículo presenta el primer sistema de escala productiva y de extremo a extremo para detectar tendencias temáticas en Snapchat, que integra extracción multimodal, detección de ráfagas en series temporales y enriquecimiento basado en modelos de lenguaje grandes para mejorar significativamente la frescura del contenido y la experiencia del usuario mediante su despliegue global.

Autores originales: Hangqi Zhao, Jay Li, Abhiruchi Bhattacharya, Cong Ni, Jason Yeung, Jinchao Ye, Kai Yang, Akshat Malu, Manish Malik

Publicado 2026-05-01
📖 4 min de lectura☕ Lectura para el café

Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita ni avalada por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Each language version is independently generated for its own context, not a direct translation.

Imagina Snapchat como una ciudad digital masiva y bulliciosa donde millones de personas publican constantemente videos cortos. En esta ciudad, las "tendencias" son como festivales callejeros masivos y repentinos o locuras de baile virales que surgen de la nada. El desafío para Snapchat es que esta ciudad es demasiado grande y se mueve demasiado rápido para que cualquier equipo humano vigile cada rincón y detecte estos festivales a medida que comienzan.

Este documento describe un nuevo sistema automatizado de "Vigilancia de la Ciudad" construido por ingenieros de Snapchat para detectar estas tendencias en el momento en que comienzan, utilizando un tipo especial de inteligencia artificial llamada Modelo de Lenguaje Grande (LLM).

Así es como funciona el sistema, desglosado en cuatro pasos simples:

1. Los "Ojos y Oídos" (Extracción de Temas)

Primero, el sistema necesita entender qué está sucediendo en los videos. Dado que los videos son una mezcla de imágenes, sonidos y texto, el sistema utiliza un equipo de "detectives" de IA.

  • El Detective Visual: Examina los fotogramas del video para ver qué objetos o escenas hay (como un perro, una playa o un concierto).
  • El Detective de Audio: Escucha lo que las personas dicen (voz a texto).
  • El Detective de Texto: Lee cualquier palabra escrita en la pantalla o en la descripción.
  • El Resumen: Una vez recopiladas estas pistas, una IA poderosa (el LLM) actúa como un periodista experto. Toma toda esa información desordenada y escribe un titular breve y claro para el video, como "Personas bailando una nueva canción" en lugar de simplemente una lista de palabras aleatorias.

2. El "Detector de Picos" (Detección de Explosiones)

El hecho de que un video sea sobre "perros" no significa que sea una tendencia; la gente publica sobre perros todos los días. El sistema necesita saber cuándo algo se vuelve repentinamente popular.

  • Imagina una calle tranquila donde usualmente pasan 5 personas por hora. De repente, 500 personas aparecen en la siguiente hora. Eso es una "explosión".
  • El sistema rastrea cuántas personas únicas están publicando sobre un tema específico. Ignora cuántas personas están viendo (para evitar sesgos) y se centra en cuántas están creando.
  • Utiliza una fórmula matemática para comparar los números de hoy con el pasado reciente. Si el número de creadores aumenta significativamente, el sistema lo marca como una tendencia potencial.

3. El "Control de Calidad" (Postprocesamiento)

No cada pico es una buena tendencia. A veces un pico es solo un error, spam o algo demasiado vago como "videos graciosos".

  • El Filtro: El sistema utiliza reglas de IA para descartar temas deficientes. Elimina cualquier cosa demasiado amplia (por ejemplo, "vida") o cualquier cosa que viole las reglas de seguridad (contenido sensible o inseguro).
  • El Fusionador: A veces el sistema detecta "Mundial 2026", "Mundial" y "Clasificatorias al Mundial" como tres cosas separadas. La IA se da cuenta de que en realidad son el mismo evento y los fusiona en una sola tendencia limpia llamada "Mundial 2026". Esto mantiene la lista ordenada y fácil de entender.

4. El "Narrador" (Riqueza de la Tendencia)

Una vez confirmada una tendencia, el sistema no solo le da un nombre; construye un perfil para ella.

  • Selecciona algunos videos representativos de la tendencia y pide a una IA superinteligente que escriba un resumen, asigne una categoría (como "Deportes" o "Noticias") y liste qué países están hablando más sobre ello.
  • Piensa en esto como convertir un punto de datos crudo en una tarjeta de noticias pulida que el resto de la aplicación puede utilizar.

¿Por qué es esto importante? (Los Resultados)

El documento informa que este sistema ha sido probado y ahora se ejecuta globalmente en Snapchat.

  • Precisión: Cuando humanos revisaron el trabajo del sistema durante seis meses, fue correcto el 92.8% de las veces.
  • Impacto en el Mundo Real: El sistema ahora se utiliza para ayudar a decidir qué videos aparecen en tu pantalla (clasificación) y qué sugerencias aparecen cuando escribes en la barra de búsqueda.
  • El Resultado: Debido a que el sistema detecta las tendencias más rápido, los usuarios ven contenido más fresco y relevante. Las pruebas mostraron que a los usuarios les gustó más el contenido (mayores tasas de "me gusta") y pasaron más tiempo viendo historias que formaban parte de estas nuevas tendencias.

En resumen, este documento describe una forma inteligente y automatizada para que Snapchat escuche el "zumbido" de toda su base de usuarios, filtre el ruido y le diga instantáneamente a la aplicación: "Oye, todos están hablando de esto ahora mismo, ¡mostremos esto a la gente!"

¿Ahogado en artículos de tu campo?

Recibe resúmenes diarios de los artículos más novedosos que coincidan con tus palabras clave de investigación — con resúmenes técnicos, en tu idioma.

Probar Digest →