Agentic Very Long Video Understanding

O artigo apresenta o EGAgent, um framework agênico inovador baseado em grafos de cena de entidades que supera as limitações de janelas de contexto existentes para permitir raciocínio composicional e multi-hop em streams de vídeo egocêntrico contínuo de longa duração, alcançando desempenho state-of-the-art em tarefas de compreensão longitudinal.

Aniket Rege, Arka Sadhu, Yuliang Li, Kejie Li, Ramya Korlakai Vinayak, Yuning Chai, Yong Jae Lee, Hyo Jin Kim

Publicado 2026-03-06
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um óculos inteligente que grava tudo o que você vê e ouve durante uma semana inteira, 24 horas por dia. Isso gera uma quantidade absurda de vídeos: milhares de horas de filmagem. Agora, imagine que alguém pergunta: "Quem estava sentado ao meu lado no táxi na terça-feira passada?" ou "Quantas vezes eu tomei café com a Lucia esta semana?".

Para um computador comum, responder a isso é como tentar encontrar uma agulha em um palheiro, mas o palheiro é do tamanho de um estádio de futebol e a agulha se move. Os computadores atuais têm uma "memória de curto prazo" muito pequena; eles esquecem o que viram há 10 minutos, quanto mais há 3 dias.

É aqui que entra o EGAgent, a solução apresentada neste paper. Vamos explicar como ele funciona usando uma analogia simples: o Detetive com um Caderno de Anotações Mágico.

1. O Problema: O "Amnésico" Digital

Os assistentes de IA atuais são como estudantes que estudam apenas os últimos 10 minutos de uma aula. Se você fizer uma pergunta sobre algo que aconteceu na primeira semana de aula, eles ficam perdidos. Eles não conseguem conectar pontos entre eventos que ocorreram em dias diferentes.

2. A Solução: O "Caderno de Anotações" (O Grafo de Entidades)

Em vez de tentar ler todo o vídeo de uma vez (o que é impossível), o EGAgent cria um Mapa de Relacionamentos (chamado de Entity Scene Graph).

Pense nisso como um caderno de anotações superorganizado que o assistente preenche enquanto você vive sua vida. Em vez de escrever "Vídeo 001", ele escreve:

  • Quem: Jake (você), Lucia, Shure.
  • Onde: Sala de jantar, Táxi, Quarto.
  • O que: "Jake conversou com Lucia", "Jake usou o carro".
  • Quando: "Terça-feira, entre 17:11 e 17:12".

Esse caderno não é apenas texto; é um mapa de conexões. Ele sabe que "Jake" e "Lucia" se conectam pela relação "conversar", e anota exatamente a hora que isso aconteceu.

3. O Agente: O Detetive Inteligente

O EGAgent é o detetive que usa esse caderno. Quando você faz uma pergunta complexa, ele não tenta "adivinhar" olhando para o vídeo. Ele segue um plano de 3 passos:

  1. Planejamento (O Detetive Pensa): O agente quebra sua pergunta em pequenas tarefas.

    • Pergunta: "Quem estava comigo no táxi na terça?"
    • Plano: "Primeiro, vou procurar no caderno quando eu usei o carro. Depois, vou ver quem estava perto de mim nesse horário."
  2. Investigação (As Ferramentas): O agente usa três ferramentas diferentes para encontrar as respostas no seu "caderno" e nos vídeos:

    • Ferramenta Visual: Olha para as fotos (frames) do vídeo para confirmar o que os olhos viram (ex: "Sim, é um táxi").
    • Ferramenta de Áudio: Lê a transcrição do que foi dito (ex: "Escuto a voz da Lucia dizendo 'Oi'").
    • Ferramenta do Mapa (O Segredo): Consulta o Grafo de Entidades. É aqui que a mágica acontece. O agente pergunta ao mapa: "Mostre-me todas as vezes que 'Jake' e 'Carro' estiveram conectados na terça-feira". O mapa responde instantaneamente com os horários exatos e quem estava lá.
  3. Resolução (A Resposta Final): O agente junta todas as pistas (visual, áudio e do mapa) e responde: "Você estava no táxi com a Lucia e a Katrina na terça-feira às 17:11."

Por que isso é revolucionário?

A maioria dos sistemas de IA tenta "ler" o vídeo inteiro de uma vez, o que é lento e confuso. O EGAgent é como um detetive experiente que sabe exatamente onde procurar.

  • Analogia do "Índice de Livro": Imagine tentar encontrar uma frase específica em um livro de 1.000 páginas sem índice. Você teria que ler tudo. O EGAgent cria o índice (o Grafo) antes mesmo de você fazer a pergunta.
  • Memória de Longo Prazo: Enquanto outros sistemas esquecem o que viram há 1 hora, o EGAgent pode lembrar de interações que aconteceram há 5 dias, porque elas estão anotadas no seu "caderno de relacionamentos".

O Resultado

Os testes mostraram que esse método é muito superior aos atuais. Em perguntas que exigem lembrar de hábitos ou quem estava com você em momentos específicos ao longo de dias, o EGAgent acertou muito mais do que os melhores sistemas existentes.

Resumo em uma frase:
O EGAgent é um assistente pessoal que, em vez de apenas "ver" vídeos, aprende a organizar a sua vida em um mapa de conexões, permitindo que ele responda perguntas complexas sobre o seu passado recente com a precisão de um detetive que nunca esquece um detalhe.