LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

Il paper presenta LLandMark, un framework modulare multi-agente che integra agenti specializzati per il rilevamento di punti di riferimento, la generazione autonoma di query visive e il riconoscimento OCR avanzato, al fine di migliorare il recupero interattivo di video multimodali in contesti vietnamiti complessi.

Minh-Chi Phung, Thien-Bao Le, Cam-Tu Tran-Thi, Thu-Dieu Nguyen-Thi, Vu-Hung Dao

Pubblicato 2026-03-04
📖 3 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere una biblioteca video gigantesca, piena di milioni di ore di filmati, notizie e documentari, tutti in vietnamita e con migliaia di luoghi diversi. Se provassi a cercare un video specifico chiedendo "C'è una cattedrale con due torri grigie?", un normale motore di ricerca potrebbe perdersi. Ma LLandMark è come un team di detective super-intelligenti che lavorano insieme per risolvere questo mistero.

Ecco come funziona, spiegato in modo semplice:

1. Il Team di Detective (Agenti Multi-Intelligenza)

Invece di avere un solo "cervello" che cerca di fare tutto, LLandMark ha un squadra di agenti specializzati, ognuno con un compito preciso:

  • L'Analista: Legge la tua domanda (anche se è in vietnamita) e decide qual è il piano migliore per trovare la risposta.
  • L'Esperto di Luoghi: Se chiedi "La cattedrale di San Giuseppe", questo agente non cerca solo la parola "cattedrale". Sa che quella cattedrale ha due torri quadrate e pietra grigia. Trasforma il nome del luogo in una descrizione visiva dettagliata, così il computer può "vedere" cosa stai cercando, non solo leggere le parole.
  • Il Traduttore di Testo: Spesso nei video ci sono scritte a schermo (come cartelli o titoli) che le macchine leggono male, specialmente in vietnamita dove le lettere hanno molti accenti. Questo agente usa un'intelligenza artificiale avanzata per correggere gli errori, come un insegnante che corregge i compiti di un alunno, rendendo il testo perfetto per la ricerca.
  • Il Detective Visivo: Se la tua domanda parla di un luogo famoso, questo agente va su internet, trova delle foto reali di quel luogo e le usa come "modello" per cercare nei video. È come se ti dessi una foto di riferimento per dire: "Cerca qualcosa che sembri esattamente questa foto".

2. Come Cercano (La Magia del "Riconoscimento")

Immagina di voler trovare un video in cui si vede il Mercato di Ben Thanh.

  • Il vecchio metodo: Il computer cerca la parola "Mercato". Potrebbe trovarti un video di un qualsiasi mercato, anche in un altro paese.
  • Il metodo LLandMark: L'agente esperto sa che il Mercato di Ben Thanh ha un orologio specifico e un'architettura particolare. L'agente visivo prende una foto reale del mercato, la confronta con ogni fotogramma del video e dice: "Ehi, questo fotogramma assomiglia alla foto del mercato di Ben Thanh al 99%!".

3. La Sintesi della Risposta

Una volta che tutti gli agenti hanno trovato i loro pezzi del puzzle (immagini simili, testi corretti, oggetti riconosciuti), un capo squadra mette tutto insieme. Non ti dà solo un elenco di video, ma ti dice: "Ecco il video, è al minuto 3:15, e vedi? C'è la cattedrale sullo sfondo e qui c'è scritto 'Hanoi' nel cartello".

Perché è speciale?

  • Capisce la cultura: Sa che in Vietnam ci sono luoghi specifici con nomi complessi e li riconosce anche se non hai la foto a portata di mano.
  • Corregge gli errori: Se il video ha scritte sfocate o difficili da leggere, le sistema automaticamente.
  • È trasparente: Puoi vedere esattamente come il sistema ha pensato e quali indizi ha usato per arrivare alla risposta, proprio come se guardassi il quaderno degli appunti di un detective.

In sintesi, LLandMark è come avere un assistente personale che non solo cerca nei tuoi video, ma capisce il contesto, corregge gli errori di lettura, immagina come sono fatti i luoghi che descrivi e ti porta esattamente alla scena che stai cercando, rendendo la ricerca di video complessa semplice e precisa.