Prompts to Summaries: Zero-Shot Language-Guided Video Summarization with Large Language and Video Models

O artigo apresenta o "Prompts-to-Summaries", um método zero-shot que utiliza modelos de linguagem e vídeo pré-treinados para gerar resumos de vídeo controláveis por texto sem necessidade de dados de treinamento, superando métodos não supervisionados anteriores e alcançando desempenho competitivo em benchmarks supervisionados.

Mario Barbara, Alaa Maalouf

Publicado 2026-02-18
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma pilha de vídeos de férias, reuniões de trabalho ou filmes inteiros, e você precisa encontrar apenas os melhores momentos, mas não tem tempo para assistir a tudo. Antigamente, para fazer um "resumo" desses vídeos, os computadores precisavam ser "ensinados" com milhares de exemplos de resumos feitos por humanos. Era como ter um estagiário que só sabia resumir filmes de ação porque foi treinado apenas com filmes de ação; se você pedisse para resumir um documentário sobre culinária, ele ficaria perdido.

Este artigo apresenta uma solução genial chamada "Prompts-to-Summaries" (Do Prompt para o Resumo). É como ter um assistente superinteligente que nunca precisou de treinamento específico para entender o que você quer.

Aqui está como funciona, usando analogias do dia a dia:

1. O Problema: A Montanha de Vídeos

Hoje em dia, produzimos vídeos em quantidade absurda. Os métodos antigos de resumo são como cozinheiros que só sabem fazer um prato específico. Se você pedir um "resumo de vídeo", eles fazem um padrão genérico. Se você pedir "mostre apenas as cenas de perseguição" ou "ignore as partes chatas", eles não entendem, porque foram treinados apenas para seguir regras fixas, não para conversar com você.

2. A Solução: O Duplo de Gênio (VidLM + LLM)

Os autores criaram um sistema que usa dois tipos de "cérebros" de IA que já existem e são muito inteligentes, mas que nunca trabalharam juntos dessa forma para resumir vídeos:

  • O "Olho" (VidLM - Modelo de Linguagem de Vídeo): Imagine um fotógrafo muito rápido que consegue olhar para uma cena e descrever em palavras o que está acontecendo. Ele não precisa ser treinado para o seu vídeo específico; ele já sabe o que é um carro, uma festa ou um acidente porque "leu" a internet inteira.
  • O "Diretor" (LLM - Grande Modelo de Linguagem): Imagine um diretor de cinema experiente que nunca viu o filme, mas leu as descrições do fotógrafo. É esse diretor quem decide o que é importante.

3. Como o Processo Funciona (Passo a Passo)

Passo 1: Cortar o Vídeo em "Cenas" (Como um Editor de Filme)
O sistema primeiro divide o vídeo longo em cenas menores, como se alguém estivesse cortando uma fita de filme. Eles usam uma técnica inteligente para saber onde uma cena termina e outra começa, evitando cortes estranhos no meio de uma ação.

Passo 2: O Fotógrafo Descreve (Geração de Legendas)
Para cada cena, o "Olho" (VidLM) escreve um pequeno resumo do que acontece ali.

  • Exemplo: "Um homem está cozinhando macarrão e depois queima o fogão."

Passo 3: O Diretor Decide (A Mágica do Prompt)
Aqui entra a parte inovadora. Você, o usuário, digita o que quer.

  • Seu comando: "Quero um resumo focado apenas nas partes engraçadas onde a comida queima."
  • O "Diretor" (LLM) lê a descrição de cada cena e o seu comando. Ele pensa: "Ok, a cena 1 é chata, a cena 2 é engraçada e queima comida. Vou dar nota 10 para a cena 2 e nota 1 para a cena 1."
  • O diferencial: O sistema não precisa ser re-treinado. Você só muda o texto do comando (o "prompt") e o diretor muda a decisão. É como pedir para um chef mudar o tempero do prato sem precisar trocar o cozinheiro.

Passo 4: Ajuste Fino (O Ritmo da Música)
Às vezes, uma cena inteira é boa, mas só um segundo específico é o melhor. O sistema olha para os quadros individuais dentro da cena e dá uma pontuação final, garantindo que o resumo flua bem, sem saltos estranhos, como se estivesse ajustando o volume de uma música para não ficar alto demais de repente.

4. Por que isso é revolucionário?

  • Zero Treinamento (Zero-Shot): É como ter um assistente que chega no primeiro dia de trabalho e já sabe fazer o serviço perfeitamente, sem precisar de um manual de instruções da sua empresa. Ele funciona em vídeos de esportes, culinária, vigilância ou filmes, sem precisar de dados específicos.
  • Entende o que você quer: Se você disser "mostre apenas os momentos de tristeza", ele entende o conceito de "tristeza" e ignora as festas, algo que os sistemas antigos não conseguiam fazer bem.
  • Resultados Incríveis: O sistema testado bateu todos os outros métodos que não usavam treinamento (e até alguns que usavam) em bancos de dados famosos.

5. O Novo Desafio: "VidSum-Reason"

Os autores criaram um novo banco de dados chamado VidSum-Reason para testar a inteligência do sistema. Eles fizeram perguntas difíceis, como:

  • "Mostre as cenas onde o personagem está mentindo" (requer raciocínio, não apenas ver um rosto).
  • "Exclua cenas com violência" (requer entender o conceito de violência).
  • "Mostre os carros alemães" (requer conhecimento do mundo real).

O sistema conseguiu responder a essas perguntas complexas muito melhor do que qualquer outro método "sem treinamento" existente.

Resumo Final

Imagine que você tem um bibliotecário superinteligente que nunca viu os livros da sua estante, mas consegue ler o índice de cada um deles em segundos. Se você pedir: "Traga-me apenas os capítulos sobre aventura", ele traz exatamente isso, sem precisar que você ensine a ele o que é "aventura".

Este trabalho mostra que, combinando a capacidade de "ver" e descrever vídeos de uma IA com a capacidade de "raciocinar" e seguir instruções de outra IA, podemos criar resumos de vídeos personalizados, rápidos e inteligentes, sem gastar meses treinando computadores. É o futuro da forma como consumimos vídeos: você pede, a IA entrega.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →