Each language version is independently generated for its own context, not a direct translation.
1. Il Problema
La ricerca di informazioni all'interno di grandi corpora video eterogenei e debolmente strutturati presenta sfide significative, specialmente nel contesto di query complesse in lingua vietnamita. I sistemi esistenti soffrono di:
- Mancanza di contesto spaziale e culturale: La maggior parte dei sistemi ignora il ragionamento sui "landmark" (punti di riferimento), cruciale per query come "di fronte alla Cattedrale di San Giuseppe" o "vicino alla Torre delle Tartarughe".
- Limitazioni OCR: I modelli di riconoscimento ottico dei caratteri (OCR) tradizionali spesso falliscono nel gestire correttamente i diacritici vietnamiti, alterando il significato del testo estratto.
- Rigidità dei pipeline: Molti approcci precedenti si basano su pipeline fisse o su agenti con capacità di pianificazione limitate, senza una vera integrazione modulare tra ragionamento semantico, visivo e testuale.
- Dipendenza dall'input manuale: Le ricerche basate su immagini richiedono spesso l'input manuale di immagini di riferimento, limitando l'automazione.
L'obiettivo è sviluppare un sistema in grado di comprendere query complesse, integrare conoscenze specifiche del dominio (come i landmark vietnamiti) e fornire risultati recuperabili in modo spiegabile e adattivo.
2. Metodologia
Il paper propone LLandMark, un framework modulare multi-agente progettato per la ricerca video multimodale. L'architettura si articola in quattro fasi principali e integra diverse tecnologie avanzate:
A. Architettura Multi-Agente
Il sistema coordina agenti specializzati che collaborano in un flusso di lavoro integrato:
- Query Parsing and Planning Agent: Analizza l'intento della query (in vietnamita o inglese), costruisce un piano di ricerca strutturato (SearchPlan) e identifica le entità "landmark". Traduce le query semantiche in inglese per l'allineamento con lo spazio vettoriale CLIP, ma mantiene i termini specifici (nomi di landmark, termini vietnamiti) per la ricerca testuale esatta.
- Landmark Knowledge Agent: Arricchisce il piano di ricerca utilizzando una base di conoscenze curata sui landmark vietnamiti. Sostituisce il nome del landmark con una descrizione visiva dettagliata (es. trasformando "Cattedrale di San Giuseppe" in "torri campanarie quadrate gemelle, pietra grigio scuro, architettura gotica"). Questo colma il divario semantico nello spazio di embedding visivo.
- Orchestrator: Esegue il piano di ricerca in parallelo su più moduli.
- Reranking and Answer Agent: Fonde i risultati multimodali e sintetizza una risposta coerente e spiegabile.
B. Pipeline di Ricerca Multimodale
Il sistema esegue ricerche parallele su tre database distinti:
- Ricerca Semantica (Embedding-based): Utilizza il modello CLIP ConvNeXt-XXLarge per generare embedding delle keyframe, archiviati in Milvus per la ricerca di similarità vettoriale.
- Ricerca Testuale (ASR e OCR):
- ASR: Utilizza WhisperX per la trascrizione audio, indicizzata in Elasticsearch.
- OCR Refinement: Utilizza PaddleOCR per l'estrazione iniziale del testo, seguito da un modulo di raffinamento basato su Gemini 2.5 Flash (integrato via LlamaIndex). Questo modulo corregge automaticamente i diacritici vietnamiti, risolve errori di ortografia e rimuove il rumore OCR, migliorando drasticamente la qualità del testo per la ricerca.
- Ricerca basata su Oggetti: Utilizza YOLOv9-e per il rilevamento di oggetti, con risultati salvati in JSON e filtrabili tramite logica booleana (AND/OR).
C. Pipeline di Ricerca Immagine-Immagine Assistita da LLM
Per superare i limiti delle query testuali sui landmark, è stata introdotta una pipeline automatizzata:
- Identificazione: Un LLM rileva il nome del landmark nella query utente.
- Generazione Query e Acquisizione: Il sistema genera query descrittive per la ricerca web e recupera immagini rappresentative tramite l'API Google Custom Search.
- Matching Visivo: Le immagini recuperate vengono codificate con CLIP e confrontate con le keyframe del video tramite similarità vettoriale in Milvus.
- Aggregazione: I risultati vengono fusi e riordinati per fornire il match visivo più accurato.
D. Fusione e Risposta
I risultati delle diverse modalità vengono combinati tramite una media ponderata. Un LLM multimodale sintetizza poi una risposta naturale, citando le evidenze specifiche (frame, trascrizioni, oggetti rilevati) per garantire trasparenza.
3. Contributi Chiave
- LLandMark Framework: Un'architettura multi-agente modulare che integra pianificazione delle query, ragionamento sui landmark e riordinamento multimodale.
- Pipeline OCR con Rifinitura Gemini: Un approccio ibrido che combina PaddleOCR e post-processing basato su LLM (Gemini 2.5 Flash) per correggere i diacritici vietnamiti, risolvendo un problema critico di qualità dei dati.
- Ricerca Immagine-Immagine Assistita da LLM: Un sistema completamente automatizzato che rileva i landmark, recupera immagini di riferimento dal web e esegue il matching visivo, eliminando la necessità di input manuali e migliorando la precisione contestuale.
- Interpretabilità: Il sistema fornisce una visualizzazione dettagliata del processo di ragionamento, mostrando come le query vengono riformulate e come vengono pesate le diverse modalità.
4. Risultati Sperimentali
Il sistema è stato valutato nell'ambito della sfida HCMAIC 2025 (Ho Chi Minh City AI Challenge) su un corpus di 250 GB di video.
- Performance Quantitativa: LLandMark ha ottenuto un punteggio totale di 77.40 su 88, classificandosi tra le prime 56 squadre su oltre 680 partecipanti. Ha dimostrato prestazioni competitive in tre task: Ricerca basata su Parole Chiave (KIS), Risposta a Domande Visive (QA) e Ragionamento Temporale (TRAKE).
- Risultati Qualitativi:
- Nel caso di query complesse come "Il video appare al molo Bach Dang di notte", la ricerca basata solo su embedding ha fallito, mentre LLandMark ha recuperato il segmento corretto grazie alla riformulazione del landmark.
- Per query come "Il clip mostra il mercato Ben Thanh", il modello CLIP base ha interpretato erroneamente il luogo come un mercato generico. La modalità "Image-to-Image assistita da LLM" ha invece identificato correttamente il landmark specifico, recuperato immagini di riferimento e trovato il video corretto come primo risultato.
5. Significato e Impatto
LLandMark rappresenta un passo avanti significativo nella ricerca video interattiva, specialmente per scenari multilingue e culturalmente specifici come il Vietnam.
- Adattabilità Culturale: Dimostra come l'integrazione di conoscenze specifiche sui landmark e la correzione linguistica mirata possano migliorare drasticamente la precisione della ricerca.
- Automazione Intelligente: La capacità di generare autonomamente query di immagini e di correggere il testo OCR senza intervento umano rende il sistema scalabile e pratico per grandi corpora.
- Fondazione per il Futuro: L'approccio modulare multi-agente offre un modello per futuri sistemi che integrano visione, linguaggio e ragionamento per una ricerca multimediale centrata sull'utente, spiegabile e culturalmente consapevole.
In sintesi, il lavoro dimostra che un'architettura di agenti specializzati, potenziata da grandi modelli linguistici (LLM) per la pianificazione e la correzione dei dati, è essenziale per gestire la complessità semantica e visiva dei video moderni.