LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

O artigo apresenta o LLandMark, um framework modular multi-agente que integra agentes especializados, incluindo um agente de conhecimento de marcos e um pipeline assistido por LLM, para realizar recuperação de vídeo multimodal adaptativa e explicável com foco em cenas e textos vietnamitas.

Minh-Chi Phung, Thien-Bao Le, Cam-Tu Tran-Thi, Thu-Dieu Nguyen-Thi, Vu-Hung Dao

Publicado 2026-03-04
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma biblioteca de vídeo gigantesca, cheia de 250 gigabytes de filmes, notícias e documentários. O problema é que, se você perguntar: "Mostre-me o vídeo onde o homem está na frente da Catedral de São José, em Hanoi, à noite", um sistema de busca comum ficaria perdido. Ele não sabe o que é "São José", não entende que "Hanoi" é um lugar específico e provavelmente não consegue ler as placas de rua borradas no vídeo.

É aqui que entra o LLandMark, o sistema apresentado neste artigo. Pense nele não como um simples robô de busca, mas como uma equipe de detetives especialistas trabalhando juntos para resolver um caso complexo.

Aqui está como essa "equipe" funciona, explicado de forma simples:

1. O Chefe de Polícia (O Agente de Planejamento)

Quando você faz a pergunta, o primeiro detetive, o "Agente de Planejamento", analisa o que você quer. Ele não apenas joga a frase em um buscador; ele cria um plano de investigação. Ele decide: "Precisamos procurar por palavras faladas, precisamos ler o texto que aparece na tela e, principalmente, precisamos saber como a Catedral de São José parece visualmente."

2. O Especialista em Cultura (O Agente de Conhecimento de Marcos)

Este é o ponto mais genial do sistema. Se você menciona um marco cultural (como a "Torre da Tartaruga" ou a "Catedral de São José"), o sistema sabe que apenas o nome não é suficiente para encontrar o vídeo.

  • A Analogia: Imagine que você está procurando um amigo em uma multidão. Se você disser apenas "João", é difícil. Mas se você disser "João, o cara de chapéu vermelho e óculos escuros", é muito mais fácil.
  • O que o sistema faz: Ele transforma o nome "Catedral de São José" em uma descrição visual rica: "Duas torres quadradas, pedra cinza escura, arquitetura gótica". Isso ajuda o sistema a encontrar o vídeo baseado na aparência do lugar, e não apenas no nome escrito.

3. O Tradutor e Corretor (O Módulo de OCR Refinado)

Vídeos muitas vezes têm textos na tela (placas, legendas) que são difíceis de ler para computadores, especialmente em vietnamita, que tem muitos acentos e sinais especiais.

  • O Problema: Um sistema comum pode ler "Hanoi" como "Hano" ou "Hanoii", perdendo a pista.
  • A Solução: O LLandMark usa uma inteligência artificial avançada (como um corretor ortográfico superpoderoso) para pegar o texto borrado, corrigir os acentos vietnamitas e garantir que a palavra esteja perfeita antes de procurar. É como ter um tradutor que não só traduz, mas também polia a frase para que faça sentido.

4. O Detetive Visual (A Busca de Imagem por Imagem)

Às vezes, o texto não é suficiente. O sistema tem um recurso incrível: ele pode desenhar a imagem mentalmente.

  • Como funciona: Se você pergunta sobre um mercado famoso, o sistema vai à internet, pega fotos reais desse mercado, e usa essas fotos como "pistas visuais" para procurar no seu banco de dados de vídeos. É como se você mostrasse uma foto do mercado para o detetive e dissesse: "Encontre o vídeo que parece com esta foto".

5. O Juiz Final (O Agente de Reordenamento e Resposta)

Depois que todos os detetives trazem suas pistas (imagens parecidas, textos encontrados, sons ouvidos), o "Juiz" junta tudo. Ele dá uma nota para cada vídeo encontrado, combinando todas as pistas.

  • Se um vídeo tem a imagem certa, o texto certo e o som certo, ele ganha a nota máxima.
  • O sistema então gera uma resposta para você, explicando: "Encontrei este vídeo. Aqui está a cena, aqui está o texto que aparece e aqui está o que foi dito."

Por que isso é importante?

Antes, para encontrar um vídeo específico em uma biblioteca gigante, você precisava saber exatamente o que estava escrito ou falado. Com o LLandMark, você pode fazer perguntas naturais, como se estivesse conversando com um amigo que conhece a cultura local.

O sistema foi testado em uma competição difícil (HCMAIC 2025) e ficou entre os melhores, provando que essa abordagem de "equipe de especialistas" funciona muito melhor do que tentar fazer tudo com uma única ferramenta.

Resumo da Ópera:
O LLandMark é como ter um assistente pessoal superinteligente que entende cultura, corrige erros de leitura, olha para as imagens como um humano e junta todas as pistas para te mostrar exatamente o vídeo que você precisa, sem que você precise saber os termos técnicos ou o nome exato de tudo.