Agentic Very Long Video Understanding

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um óculos inteligente que grava tudo o que você vê e ouve durante uma semana inteira, 24 horas por dia. Isso gera uma quantidade absurda de vídeos: milhares de horas de filmagem. Agora, imagine que alguém pergunta: "Quem estava sentado ao meu lado no táxi na terça-feira passada?" ou "Quantas vezes eu tomei café com a Lucia esta semana?".

Para um computador comum, responder a isso é como tentar encontrar uma agulha em um palheiro, mas o palheiro é do tamanho de um estádio de futebol e a agulha se move. Os computadores atuais têm uma "memória de curto prazo" muito pequena; eles esquecem o que viram há 10 minutos, quanto mais há 3 dias.

É aqui que entra o EGAgent, a solução apresentada neste paper. Vamos explicar como ele funciona usando uma analogia simples: o Detetive com um Caderno de Anotações Mágico.

1. O Problema: O "Amnésico" Digital

Os assistentes de IA atuais são como estudantes que estudam apenas os últimos 10 minutos de uma aula. Se você fizer uma pergunta sobre algo que aconteceu na primeira semana de aula, eles ficam perdidos. Eles não conseguem conectar pontos entre eventos que ocorreram em dias diferentes.

2. A Solução: O "Caderno de Anotações" (O Grafo de Entidades)

Em vez de tentar ler todo o vídeo de uma vez (o que é impossível), o EGAgent cria um Mapa de Relacionamentos (chamado de Entity Scene Graph).

Pense nisso como um caderno de anotações superorganizado que o assistente preenche enquanto você vive sua vida. Em vez de escrever "Vídeo 001", ele escreve:

Quem: Jake (você), Lucia, Shure.
Onde: Sala de jantar, Táxi, Quarto.
O que: "Jake conversou com Lucia", "Jake usou o carro".
Quando: "Terça-feira, entre 17:11 e 17:12".

Esse caderno não é apenas texto; é um mapa de conexões. Ele sabe que "Jake" e "Lucia" se conectam pela relação "conversar", e anota exatamente a hora que isso aconteceu.

3. O Agente: O Detetive Inteligente

O EGAgent é o detetive que usa esse caderno. Quando você faz uma pergunta complexa, ele não tenta "adivinhar" olhando para o vídeo. Ele segue um plano de 3 passos:

Planejamento (O Detetive Pensa): O agente quebra sua pergunta em pequenas tarefas.
- Pergunta: "Quem estava comigo no táxi na terça?"
- Plano: "Primeiro, vou procurar no caderno quando eu usei o carro. Depois, vou ver quem estava perto de mim nesse horário."
Investigação (As Ferramentas): O agente usa três ferramentas diferentes para encontrar as respostas no seu "caderno" e nos vídeos:
- Ferramenta Visual: Olha para as fotos (frames) do vídeo para confirmar o que os olhos viram (ex: "Sim, é um táxi").
- Ferramenta de Áudio: Lê a transcrição do que foi dito (ex: "Escuto a voz da Lucia dizendo 'Oi'").
- Ferramenta do Mapa (O Segredo): Consulta o Grafo de Entidades. É aqui que a mágica acontece. O agente pergunta ao mapa: "Mostre-me todas as vezes que 'Jake' e 'Carro' estiveram conectados na terça-feira". O mapa responde instantaneamente com os horários exatos e quem estava lá.
Resolução (A Resposta Final): O agente junta todas as pistas (visual, áudio e do mapa) e responde: "Você estava no táxi com a Lucia e a Katrina na terça-feira às 17:11."

Por que isso é revolucionário?

A maioria dos sistemas de IA tenta "ler" o vídeo inteiro de uma vez, o que é lento e confuso. O EGAgent é como um detetive experiente que sabe exatamente onde procurar.

Analogia do "Índice de Livro": Imagine tentar encontrar uma frase específica em um livro de 1.000 páginas sem índice. Você teria que ler tudo. O EGAgent cria o índice (o Grafo) antes mesmo de você fazer a pergunta.
Memória de Longo Prazo: Enquanto outros sistemas esquecem o que viram há 1 hora, o EGAgent pode lembrar de interações que aconteceram há 5 dias, porque elas estão anotadas no seu "caderno de relacionamentos".

O Resultado

Os testes mostraram que esse método é muito superior aos atuais. Em perguntas que exigem lembrar de hábitos ou quem estava com você em momentos específicos ao longo de dias, o EGAgent acertou muito mais do que os melhores sistemas existentes.

Resumo em uma frase:
O EGAgent é um assistente pessoal que, em vez de apenas "ver" vídeos, aprende a organizar a sua vida em um mapa de conexões, permitindo que ele responda perguntas complexas sobre o seu passado recente com a precisão de um detetive que nunca esquece um detalhe.

Each language version is independently generated for its own context, not a direct translation.

Título: Agentic Very Long Video Understanding (Compreensão de Vídeo Muito Longo Agente)

Autores: Aniket Rege, Arka Sadhu, Yuliang Li, et al. (Meta Reality Labs Research & University of Wisconsin-Madison)

1. O Problema

O advento de assistentes pessoais de IA "sempre ativos" (como óculos inteligentes) exige um novo nível de compreensão contextual que vá além de eventos isolados e curtos. O desafio central é a compreensão de vídeo muito longo (very long video understanding), onde o sistema deve interpretar e recordar informações visuais e auditivas que abrangem dias ou até semanas de gravação contínua (ex: 50+ horas de vídeo egocêntrico).

As limitações das abordagens atuais incluem:

Janelas de contexto limitadas: Modelos de Linguagem Grandes (LLMs) e Multimodais (VLMs) não conseguem processar o volume massivo de dados de vídeos longos de uma só vez.
Falta de raciocínio composicional: Métodos existentes (como RAG - Retrieval-Augmented Generation) frequentemente falham em realizar raciocínio multi-hop (várias etapas) sobre entidades e suas relações ao longo do tempo.
Dificuldade em localizar temporalmente: É difícil rastrear comportamentos repetidos, hábitos ou interações específicas entre pessoas e objetos ao longo de vários dias usando apenas busca baseada em embeddings não estruturados.

2. Metodologia: O Framework EGAgent

Os autores propõem o EGAgent, um framework agencial aprimorado centrado na extração e uso de Gráficos de Cena de Entidades (Entity Scene Graphs). O sistema não tenta processar o vídeo inteiro de uma vez, mas sim descompor a consulta em sub-tarefas e utilizar ferramentas especializadas para buscar e raciocinar.

Componentes Principais:

Representação de Gráfico de Entidades (Entity Scene Graph):
- É a inovação central. O gráfico captura entidades (pessoas, objetos, locais) e suas relações (ex: "fala com", "usa", "interage com").
- Anotação Temporal: Cada aresta (relação) é anotada com intervalos de tempo específicos ( $t_{start}, t_{end}$ ), permitindo que o sistema saiba quando uma interação ocorreu.
- O gráfico é construído incrementalmente a partir de transcrições de áudio e descrições de cenas visuais, armazenado em um banco de dados SQLite para consultas eficientes via SQL.
Agente de Planejamento (Planning Agent):
- Recebe a consulta complexa do usuário e a descompõe em uma sequência de sub-tarefas.
- Decide qual ferramenta de busca usar para cada sub-tarefa.
Ferramentas de Busca Híbridas:
- Busca Visual: Usa embeddings semânticos (SigLIP 2) em frames amostrados a 1 FPS, combinados com busca por atributos (localização, hora).
- Busca por Transcrição de Áudio: Utiliza busca lexical (BM25) ou baseada em LLM para encontrar diálogos relevantes.
- Busca no Gráfico de Entidades: O agente gera consultas SQL estruturadas sobre o gráfico para encontrar relações específicas entre entidades em intervalos de tempo definidos. O sistema emprega uma estratégia de "estrito para relaxado" (começa com filtros exatos e amplia a janela temporal ou o tipo de relação se não encontrar resultados).
Agente Analisador e VQA:
- O Analisador filtra e distila a informação recuperada das três fontes, atualizando uma "memória de trabalho".
- O Agente VQA (Visual Question Answering) sintetiza todas as evidências cruzadas (multimodais) da memória de trabalho para gerar a resposta final.

3. Contribuições Chave

Representação de Gráfico de Entidades Temporal: Introduz uma estrutura de dados que modela explicitamente relações entre entidades com anotações temporais precisas, permitindo raciocínio estruturado sobre longos horizontes temporais.
Framework Agencial Multimodal: Apresenta um sistema que orquestra a busca em três modalidades (visual, áudio e gráfico estruturado) de forma iterativa, superando as limitações de janelas de contexto fixas.
Estratégia de Busca Adaptativa: O uso de consultas SQL com relaxamento progressivo no gráfico de entidades melhora a precisão e o recall em dados ruidosos do mundo real.

4. Resultados Experimentais

O EGAgent foi avaliado em dois benchmarks principais: EgoLifeQA (focado em vídeos egocêntricos de uma semana) e Video-MME (Long) (vídeos de 30-60 minutos).

EgoLifeQA:
- Alcançou o estado da arte (SOTA) com 57,5% de precisão média.
- Superou o segundo melhor método em 20,6% no geral.
- Ganhos significativos em categorias que exigem raciocínio relacional complexo: RelationMap (+32% sobre o SOTA anterior) e TaskMaster (+39,7%).
- O uso do gráfico de entidades foi crucial: a versão com gráfico superou a versão sem gráfico em 4 de 5 categorias.
Video-MME (Long):
- Alcançou 74,1% de precisão, desempenho competitivo com os melhores modelos atuais.
- Notavelmente, o EGAgent processou mais de 10 vezes menos frames do que métodos concorrentes (como AdaVideoRAG) para atingir desempenho similar, demonstrando maior eficiência.

5. Significado e Impacto

Este trabalho é fundamental para o desenvolvimento de assistentes pessoais de IA verdadeiramente contextuais para dispositivos vestíveis.

Viabilidade Técnica: Demonstra que é possível realizar compreensão de vídeo de semanas de duração sem depender de janelas de contexto massivas de LLMs, utilizando representações estruturadas (gráficos) em vez de apenas dados brutos.
Raciocínio de Longo Prazo: Permite que a IA responda a perguntas complexas como "Com quem eu jantei na terça-feira passada?" ou "Quantas vezes usei o carro esta semana?", exigindo a correlação de eventos dispersos no tempo.
Eficiência: A abordagem baseada em agentes e gráficos oferece um caminho escalável para o processamento de dados contínuos de sensores pessoais, reduzindo a carga computacional em comparação com a ingestão direta de todo o vídeo.

Em resumo, o EGAgent estabelece um novo paradigma para a compreensão de vídeos longos, migrando de uma abordagem puramente baseada em extração de características para uma abordagem agencial e estruturada, capaz de raciocinar sobre a vida diária dos usuários ao longo de semanas.

Agentic Very Long Video Understanding

1. O Problema: O "Amnésico" Digital

2. A Solução: O "Caderno de Anotações" (O Grafo de Entidades)

3. O Agente: O Detetive Inteligente

Por que isso é revolucionário?

O Resultado

Título: Agentic Very Long Video Understanding (Compreensão de Vídeo Muito Longo Agente)

1. O Problema

2. Metodologia: O Framework EGAgent

Componentes Principais:

3. Contribuições Chave

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning

AnchorNote: Exploring Speech-Driven Spatial Externalization for Co-Located Collaboration in Augmented Reality

Your Robot Will Feel You Now: Empathy in Robots and Embodied Agents

FIGURA: A Modular Prompt Engineering Method for Artistic Figure Photography in Safety-Filtered Text-to-Image Models

Measuring Research Convergence in Interdisciplinary Teams Using Large Language Models and Graph Analytics