LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

El artículo presenta LLandMark, un marco modular multiagente que mejora la recuperación de videos interactivos mediante la integración de agentes especializados para el razonamiento de hitos, la síntesis multimodal y el reconocimiento de texto en vietnamita, logrando así una búsqueda adaptable y culturalmente fundamentada.

Minh-Chi Phung, Thien-Bao Le, Cam-Tu Tran-Thi, Thu-Dieu Nguyen-Thi, Vu-Hung Dao

Publicado 2026-03-04
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Imagina que tienes una biblioteca gigante llena de millones de horas de videos! Desde noticias y documentales hasta videos de viajes y deportes. Ahora, imagina que alguien te pide: "Muéstrame el momento exacto en que un hombre habla frente a la Catedral de San José en Hanoi, de noche".

Encontrar esa aguja en el pajar es casi imposible para una persona, y para una computadora normal es un caos. ¿Por qué? Porque las computadoras suelen ser muy literales. Si les dices "Catedral", buscan la palabra escrita, pero no entienden que "Catedral" es un edificio con torres altas y piedra gris, ni saben que en Vietnam hay muchas catedrales diferentes.

Aquí es donde entra LLandMark, el sistema que describe el paper. Piensa en LLandMark no como un solo robot, sino como un equipo de detectives expertos trabajando juntos en una sala de operaciones.

El Equipo de Detectives (Los Agentes)

En lugar de tener un solo cerebro que lo intente todo, LLandMark divide el trabajo entre cuatro especialistas:

  1. El Traductor y Planificador (Query Parsing Agent):
    Es el que recibe tu pregunta. Si tú dices "Cerca de la Torre de la Tortuga", él no solo busca esa frase. Piensa: "¡Ah! La Torre de la Tortuga es un lugar famoso en un lago. Necesito buscar videos que muestren un lago y una torre antigua". Traduce tu idea vaga en un plan de búsqueda concreto.

  2. El Experto en Cultura y Lugares (Landmark Knowledge Agent):
    Este es el más interesante. Es como un guía turístico local que conoce Vietnam de memoria. Si el planificador dice "Catedral", este agente le susurra al sistema: "No busques solo la palabra. Busca 'dos torres cuadradas, piedra gris, arquitectura gótica'".

    • La analogía: Es como si le dijeras a un amigo que busque "un perro" y él te trae cualquier perro, pero si le dices "un perro grande, negro, con orejas caídas", te trae exactamente el que querías. Este agente convierte nombres de lugares en descripciones visuales detalladas para que la computadora "vea" lo que buscas, no solo lea el nombre.
  3. El Detective de Texto y Voz (OCR y ASR):
    A veces, la información no está en la imagen, sino en lo que se dice o en lo que aparece escrito en la pantalla (como subtítulos o letreros).

    • El problema: Las computadoras a veces leen mal el vietnamita (confunden las letras con acentos).
    • La solución: LLandMark usa un "corrector mágico" (basado en una IA llamada Gemini) que repara el texto vietnamito, poniendo los acentos y tildes en su lugar, como un editor de texto muy cuidadoso, para que la búsqueda sea perfecta.
  4. El Detective de Imágenes (Image-to-Image):
    A veces, las palabras no son suficientes. Para encontrar un lugar específico, el sistema va a internet, busca fotos reales de ese lugar (gracias a la IA) y luego compara esas fotos con los videos que tiene guardados.

    • La analogía: Es como si le mostraras una foto de tu casa a un guardia de seguridad y le dijeras: "Busca en los videos a alguien que esté entrando por una puerta que se vea exactamente así".

¿Cómo trabajan juntos?

Cuando haces una pregunta, estos detectives no trabajan uno por uno, sino todos a la vez (en paralelo).

  • Uno busca por el significado de las palabras.
  • Otro busca por lo que se dice en el audio.
  • Otro busca por lo que se lee en la pantalla.
  • Otro busca por objetos específicos (como "un hombre" o "un coche").

Luego, un Jefe de Equipo (Reranking Agent) reúne todas las pistas. Si tres detectives dicen "¡Este es el video!" y uno dice "No estoy seguro", el jefe decide cuál es la respuesta más probable y te la presenta con una explicación clara: "Aquí está el video. Mira, en el segundo 1:20 se ve la torre, y aquí está el texto en pantalla que confirma el lugar".

¿Por qué es importante?

Antes, para encontrar un video así, tenías que saber exactamente cómo se escribía el nombre del lugar o tener suerte. Con LLandMark:

  • Entiende el contexto: Sabe que "Catedral" en Hanoi es diferente a una iglesia en la aldea.
  • Es flexible: Si te equivocas en la descripción, el sistema adivina lo que quieres basándose en la cultura y la apariencia visual.
  • Es transparente: Te muestra cómo llegó a la respuesta, como si te enseñara sus notas de investigación.

En resumen, LLandMark es como tener un asistente de investigación súper inteligente que conoce Vietnam, habla el idioma local, sabe leer mal escrito y puede reconocer lugares por su cara, todo para ayudarte a encontrar ese video específico en una montaña de datos en segundos. ¡Es magia tecnológica hecha realidad!