LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma biblioteca de vídeo gigantesca, cheia de 250 gigabytes de filmes, notícias e documentários. O problema é que, se você perguntar: "Mostre-me o vídeo onde o homem está na frente da Catedral de São José, em Hanoi, à noite", um sistema de busca comum ficaria perdido. Ele não sabe o que é "São José", não entende que "Hanoi" é um lugar específico e provavelmente não consegue ler as placas de rua borradas no vídeo.

É aqui que entra o LLandMark, o sistema apresentado neste artigo. Pense nele não como um simples robô de busca, mas como uma equipe de detetives especialistas trabalhando juntos para resolver um caso complexo.

Aqui está como essa "equipe" funciona, explicado de forma simples:

1. O Chefe de Polícia (O Agente de Planejamento)

Quando você faz a pergunta, o primeiro detetive, o "Agente de Planejamento", analisa o que você quer. Ele não apenas joga a frase em um buscador; ele cria um plano de investigação. Ele decide: "Precisamos procurar por palavras faladas, precisamos ler o texto que aparece na tela e, principalmente, precisamos saber como a Catedral de São José parece visualmente."

2. O Especialista em Cultura (O Agente de Conhecimento de Marcos)

Este é o ponto mais genial do sistema. Se você menciona um marco cultural (como a "Torre da Tartaruga" ou a "Catedral de São José"), o sistema sabe que apenas o nome não é suficiente para encontrar o vídeo.

A Analogia: Imagine que você está procurando um amigo em uma multidão. Se você disser apenas "João", é difícil. Mas se você disser "João, o cara de chapéu vermelho e óculos escuros", é muito mais fácil.
O que o sistema faz: Ele transforma o nome "Catedral de São José" em uma descrição visual rica: "Duas torres quadradas, pedra cinza escura, arquitetura gótica". Isso ajuda o sistema a encontrar o vídeo baseado na aparência do lugar, e não apenas no nome escrito.

3. O Tradutor e Corretor (O Módulo de OCR Refinado)

Vídeos muitas vezes têm textos na tela (placas, legendas) que são difíceis de ler para computadores, especialmente em vietnamita, que tem muitos acentos e sinais especiais.

O Problema: Um sistema comum pode ler "Hanoi" como "Hano" ou "Hanoii", perdendo a pista.
A Solução: O LLandMark usa uma inteligência artificial avançada (como um corretor ortográfico superpoderoso) para pegar o texto borrado, corrigir os acentos vietnamitas e garantir que a palavra esteja perfeita antes de procurar. É como ter um tradutor que não só traduz, mas também polia a frase para que faça sentido.

4. O Detetive Visual (A Busca de Imagem por Imagem)

Às vezes, o texto não é suficiente. O sistema tem um recurso incrível: ele pode desenhar a imagem mentalmente.

Como funciona: Se você pergunta sobre um mercado famoso, o sistema vai à internet, pega fotos reais desse mercado, e usa essas fotos como "pistas visuais" para procurar no seu banco de dados de vídeos. É como se você mostrasse uma foto do mercado para o detetive e dissesse: "Encontre o vídeo que parece com esta foto".

5. O Juiz Final (O Agente de Reordenamento e Resposta)

Depois que todos os detetives trazem suas pistas (imagens parecidas, textos encontrados, sons ouvidos), o "Juiz" junta tudo. Ele dá uma nota para cada vídeo encontrado, combinando todas as pistas.

Se um vídeo tem a imagem certa, o texto certo e o som certo, ele ganha a nota máxima.
O sistema então gera uma resposta para você, explicando: "Encontrei este vídeo. Aqui está a cena, aqui está o texto que aparece e aqui está o que foi dito."

Por que isso é importante?

Antes, para encontrar um vídeo específico em uma biblioteca gigante, você precisava saber exatamente o que estava escrito ou falado. Com o LLandMark, você pode fazer perguntas naturais, como se estivesse conversando com um amigo que conhece a cultura local.

O sistema foi testado em uma competição difícil (HCMAIC 2025) e ficou entre os melhores, provando que essa abordagem de "equipe de especialistas" funciona muito melhor do que tentar fazer tudo com uma única ferramenta.

Resumo da Ópera:
O LLandMark é como ter um assistente pessoal superinteligente que entende cultura, corrige erros de leitura, olha para as imagens como um humano e junta todas as pistas para te mostrar exatamente o vídeo que você precisa, sem que você precise saber os termos técnicos ou o nome exato de tudo.

LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

1. O Chefe de Polícia (O Agente de Planejamento)

2. O Especialista em Cultura (O Agente de Conhecimento de Marcos)

3. O Tradutor e Corretor (O Módulo de OCR Refinado)

4. O Detetive Visual (A Busca de Imagem por Imagem)

5. O Juiz Final (O Agente de Reordenamento e Resposta)

Por que isso é importante?

1. Problema e Contexto

2. Metodologia: O Framework LLandMark

A. Pré-processamento e Extração de Dados

B. Módulo de Refinamento de OCR (OCR Refinement Module)

C. Framework Multi-Agent

D. Recuperação Imagem-para-Imagem Assistida por LLM

3. Contribuições Principais

4. Resultados Experimentais

5. Significância e Conclusão

LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

1. O Chefe de Polícia (O Agente de Planejamento)

2. O Especialista em Cultura (O Agente de Conhecimento de Marcos)

3. O Tradutor e Corretor (O Módulo de OCR Refinado)

4. O Detetive Visual (A Busca de Imagem por Imagem)

5. O Juiz Final (O Agente de Reordenamento e Resposta)

Por que isso é importante?

1. Problema e Contexto

2. Metodologia: O Framework LLandMark

A. Pré-processamento e Extração de Dados

B. Módulo de Refinamento de OCR (OCR Refinement Module)

C. Framework Multi-Agent

D. Recuperação Imagem-para-Imagem Assistida por LLM

3. Contribuições Principais

4. Resultados Experimentais

5. Significância e Conclusão

Mais como este

Model2Kernel: Model-Aware Symbolic Execution For Safe CUDA Kernels

Algorithmic Barriers to Detecting and Repairing Structural Overspecification in Adaptive Data-Structure Selection

Zero-Cost NDV Estimation from Columnar File Metadata

Persistence-based topological optimization: a survey

Multi-LLM Query Optimization