Automatic Funny Scene Extraction from Long-form Cinematic Videos

Este artículo presenta un sistema integral de extremo a extremo para la extracción automática de escenas humorísticas de películas de larga duración, que combina detección de planos, localización multimodal y etiquetado de humor para lograr una precisión superior al estado del arte y optimizar la creación de contenido atractivo para plataformas de streaming.

Sibendu Paul, Haotian Jiang, Caren Chen

Publicado 2026-02-18
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que tienes una película de dos horas, llena de aventuras, dramas y momentos serios. Ahora, imagina que quieres encontrar exactamente esos 10 segundos donde todos se ríen a carcajadas para mostrarle a tus amigos un pequeño "bocadito" divertido antes de que decidan verla.

Hacer esto manualmente es como buscar una aguja en un pajar: requiere mucho tiempo y esfuerzo. Los autores de este paper (trabajadores de Amazon Prime Video) han creado un robot inteligente que hace todo el trabajo sucio por ti.

Aquí te explico cómo funciona este "robot de risas" usando analogías sencillas:

1. El Problema: La película es un libro gigante

Las películas son largas y complejas. No es lo mismo detectar un corte de cámara (un "shot") que entender cuándo termina una escena y empieza otra, o cuándo algo es realmente gracioso. El humor es difícil porque depende de las palabras, el tono de voz, la cara de los actores y el contexto.

2. La Solución: Una Fábrica de 3 Etapas

El sistema funciona como una línea de montaje con tres trabajadores expertos:

Etapa 1: El Cortador de Película (Detección de Escenas)

  • Qué hace: Primero, el robot mira la película y la corta en pedazos pequeños (planos) y luego los agrupa en escenas completas.
  • El truco: Imagina que tienes que agrupar fotos de una fiesta. Si ves a la misma persona en varias fotos, sabes que pertenecen al mismo grupo. El robot hace algo similar, pero en lugar de solo mirar caras, mira las imágenes y lee lo que dicen los subtítulos al mismo tiempo.
  • La analogía: Es como tener un detective que no solo ve quién está en la foto, sino que también lee el cartel que sostienen. Si el cartel dice "broma" y la cara sonríe, el robot sabe que esas fotos van juntas. Gracias a esto, el robot es mucho más preciso que los anteriores (¡mejoró un 18% en encontrar los límites de las escenas!).

Etapa 2: El Detective de Risas (Etiquetado de Humor)

  • Qué hace: Una vez que tiene las escenas, el robot se pregunta: "¿Es esto gracioso?".
  • El truco: Aquí usa dos sentidos:
    1. El Oído: Escucha si hay risas reales en la película (como cuando la audiencia se ríe).
    2. La Voz: Lee el guion (los diálogos) para entender si hay una "broma" (setup) y un "remate" (punchline).
  • La analogía: Imagina a un profesor de comedia muy estricto. No solo busca si la gente se ríe, sino que analiza si la frase fue inteligente. Además, este profesor tiene un filtro de seguridad: si escucha que alguien se está burlando de otro de forma cruel (como bullying), el robot dice: "¡Alto! Esto no es humor, es ofensivo", y lo descarta.

Etapa 3: El Juez de Puntuación (Ranking)

  • Qué hace: No todas las escenas graciosas son iguales. Algunas son un chiste rápido, otras son una situación larga y divertida. El robot les pone una nota.
  • El truco: Combina todo: ¿Cuánto duró la risa? ¿Qué tan inteligente fue el chiste? ¿Qué tan larga es la escena? (A los humanos nos gustan las escenas cortas y directas).
  • El resultado: Entregan una lista de los mejores momentos, ordenados del más gracioso al menos gracioso.

3. ¿Qué tan bien funciona?

Los autores probaron su sistema en 5 películas completas y 11 tráilers. Los resultados fueron increíbles:

  • Precisión: El 98% de las veces, el robot encontró el final correcto de la escena (no cortó la película a mitad de una frase).
  • Calidad: El 87% de los clips que el robot eligió fueron confirmados por humanos expertos como "realmente graciosos".
  • Seguridad: El filtro de seguridad funcionó al 100%, eliminando el contenido inapropiado.

4. ¿Para qué sirve esto?

Imagina que estás en tu sofá, pasas el mouse sobre el título de una película y, en lugar de una imagen estática, empieza a reproducirse automáticamente un clip de 10 segundos donde todos se ríen. ¡Eso es lo que permite este sistema! Hace que sea más fácil y divertido descubrir nuevas películas.

En resumen

Este paper presenta un sistema que combina ojos (para ver la acción), oídos (para escuchar risas) y cerebro (para entender el chiste) para convertir películas largas en pequeños momentos de diversión perfectos para redes sociales o para que los usuarios prueben el contenido rápidamente.

Es como tener un asistente personal que ve todas las películas de tu plataforma, se ríe con ellas, y te dice: "Oye, mira este momento, ¡es oro puro!".

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →