LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen riesigen, unordentlichen Videolagerkeller, der so groß ist wie ein ganzer Stadtteil (250 Gigabyte!). In diesem Keller liegen Millionen von Videobändern: Nachrichten, Dokumentationen, Urlaubsfilme. Jemand kommt zu dir und sagt: „Zeig mir das Video, in dem man den Ho-Chi-Minh-Markt bei Nacht sieht, und zwar genau in der Szene, wo ein Mann interviewt wird."

Das Problem: Ein normaler Computer sucht nur nach Wörtern. Wenn du „Ho-Chi-Minh-Markt" eingibst, sucht er nach dem Text im Video oder im Ton. Aber was ist, wenn der Text im Video unscharf ist? Oder was ist, wenn der Computer den Namen des Marktes nicht kennt, aber das Aussehen des Marktes (die bunten Lichter, die Architektur)?

Hier kommt LLandMark ins Spiel. Es ist wie ein hochspezialisiertes Detektiv-Team aus KI-Agenten, das gemeinsam arbeitet, um diese schwierigen Fragen zu beantworten.

Hier ist die Erklärung, wie dieses Team funktioniert, mit ein paar einfachen Vergleichen:

1. Der Teamleiter (Der Planer)

Wenn du deine Frage stellst, ist der erste Agent wie ein erfahrener Detektiv. Er hört sich deine Frage an und denkt: „Okay, wir brauchen nicht nur nach dem Wort 'Markt' zu suchen. Wir müssen auch nach dem Aussehen des Marktes suchen und prüfen, ob im Hintergrund jemand interviewt wird."
Er erstellt einen Suchplan. Er teilt die Aufgabe auf: „Agent A, such nach Text. Agent B, such nach Bildern. Agent C, hör dem Ton zu."

2. Der Kultur-Experte (Der Landmark-Agent)

Das ist das Herzstück von LLandMark. Viele Computer verstehen vietnamesische Orte nicht gut. Wenn du sagst „Kathedrale St. Joseph", denkt ein normaler Computer vielleicht nur an das Wort.
Der Landmark-Agent ist wie ein lokaler Reiseleiter. Er weiß: „Ah, die Kathedrale St. Joseph hat zwei quadratische Glockentürme, ist aus dunkelgrauem Stein und sieht gotisch aus."
Er verwandelt den Namen in eine Bildbeschreibung. Statt nur nach dem Wort zu suchen, sagt er dem Suchsystem: „Suche nach etwas mit zwei quadratischen Glockentürmen und gotischem Stein." Das hilft dem Computer, das Bild zu erkennen, auch wenn das Wort im Video gar nicht steht.

3. Der Text-Reiniger (Der OCR-Agent)

In Videos steht oft Text auf Bildschirmen (z. B. Nachrichten-Ticker). Aber wenn man diesen Text mit einer Kamera abfotografiert und der Computer ihn liest, macht er oft Fehler, besonders bei vietnamesischen Zeichen mit vielen Akzenten (wie á, ố, ễ). Es sieht dann aus wie Kauderwelsch.
Hier kommt ein Text-Reiniger ins Spiel. Er nimmt den schmutzigen, fehlerhaften Text und putzt ihn auf. Er nutzt eine super-smarte KI (Gemini), um die Akzente wieder hinzuzufügen und die Rechtschreibung zu korrigieren, als würde ein Lehrer einen Schülerheft korrigieren. Erst dann kann das System den Text wirklich verstehen.

4. Der Bild-Detektiv (Die Bild-zu-Bild-Suche)

Manchmal reicht ein Wort nicht. Stell dir vor, du suchst nach einem bestimmten Gebäude, hast aber keine Ahnung, wie es heißt, aber du hast ein Foto davon im Kopf.
Normalerweise müsstest du dieses Foto manuell hochladen. LLandMark macht das automatisch!

Schritt 1: Der Agent erkennt: „Du meinst den Ben Thanh Markt."
Schritt 2: Er geht ins Internet (wie ein Suchmaschinen-Bot), findet echte Fotos dieses Marktes.
Schritt 3: Er vergleicht diese echten Fotos mit allen Videobildern in deinem riesigen Keller.
Ergebnis: Er findet genau das Video, das dem Foto am ähnlichsten sieht. Das ist wie wenn du jemandem ein Foto zeigst und sagst: „Finde mir den Ort, der so aussieht!"

5. Der Chef-Editor (Der Zusammenführer)

Alle Agenten schicken ihre Ergebnisse zurück. Der Chef-Editor (der Reranking-Agent) schaut sich alle Hinweise an:

„Der Text passt."
„Das Bild sieht aus wie der Markt."
„Im Tonfall hört man das Interview."
Er kombiniert alles zu einer perfekten Antwort und zeigt dir genau den Videomoment an, der deine Frage beantwortet.

Warum ist das so cool?

Frühere Systeme waren wie starre Roboter: Sie suchten nur nach exakten Wörtern. Wenn du einen Fehler gemacht hast oder ein Wort nicht kannten, fanden sie nichts.
LLandMark ist wie ein menschlicher Detektiv mit einem super-intelligenten Team:

Es versteht den Kontext (Orte, Kultur).
Es korrigiert Fehler (schlechte Texterkennung).
Es nutzt Bilder als Suchwerkzeug, nicht nur Worte.

Am Ende hat dieses Team in einem großen Wettbewerb (HCMAIC 2025) gegen über 680 andere Teams angetreten und sich unter die Top 56 gekämpft. Es beweist, dass man Videos nicht nur mit Wörtern, sondern mit „Verständnis" durchsuchen kann – besonders wenn es um komplexe Szenen in Vietnam geht.

Kurz gesagt: LLandMark ist der Schlüssel, der dir erlaubt, in einem riesigen Videolager nicht nur nach dem Etikett zu suchen, sondern das Objekt selbst zu erkennen, zu verstehen und zu finden.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die zunehmende Vielfalt und der Umfang von Videodaten stellen hohe Anforderungen an Suchsysteme. Herkömmliche Systeme stoßen bei komplexen, realweltlichen Abfragen an Grenzen, insbesondere bei:

Multimodalem Verständnis: Die Notwendigkeit, visuelle, textliche (gesprochen und geschrieben) und semantische Informationen über die Zeit hinweg zu verknüpfen.
Sprach- und Kulturkontext: Bestehende Systeme ignorieren oft räumliche und kulturelle Kontexte, was bei vietnamesischen Abfragen kritisch ist (z. B. Referenzen auf spezifische Wahrzeichen wie „vor der St. Josephs-Kathedrale" oder „in der Nähe des Schildkrötenturms").
Datenqualität: Probleme bei der Texterkennung (OCR) für vietnamesische Texte (Verlust von Diakritika), verrauschte Transkripte und die Ineffizienz manueller Bildauswahl für bildbasierte Suchen.
Skalierbarkeit: Viele bestehende Ansätze sind entweder zu rechenintensiv (z. B. durch zweistufige OCR-Pipelines) oder zu starr, um adaptive Suchpläne zu erstellen.

Das Ziel ist es, ein System zu entwickeln, das komplexe, ereignisbasierte Beweise aus einem 250 GB großen Videokorpus (HCMAIC 2025 Challenge) effizient, erklärbar und kulturell fundiert zurückgeben kann.

2. Methodik

Das vorgestellte LLandMark-Framework ist ein modulares Multi-Agenten-System, das in vier Hauptphasen unterteilt ist:

A. Datenvorverarbeitung

Schlüsselauswahl: Anstatt jeden Frame zu verarbeiten, wird TransNetV2 verwendet, um Videos in Szenen (Shots) zu segmentieren. Pro Shot werden repräsentative Schlüsselframes extrahiert (basierend auf Perzentilen [0.15, 0.5, 0.85]), um Rechenkosten zu senken.
Indexierung:
- Visuell: Schlüsselframes werden mit CLIP (ConvNeXt-XXLarge) in Vektoren umgewandelt und in Milvus (Vektordatenbank) gespeichert.
- Textuell (ASR): WhisperX erstellt Transkripte mit Sprecherdiarisierung; diese werden in Elasticsearch indiziert.
- Objekte: YOLOv9-e detektiert Objekte; Ergebnisse werden in JSON gespeichert.
- Textuell (OCR): PaddleOCR extrahiert Text, wird jedoch durch einen nachgeschalteten Gemini 2.5 Flash-Modul (via LlamaIndex) verbessert, um vietnamesische Diakritika wiederherzustellen und OCR-Rauschen zu entfernen.

B. Das LLandMark Multi-Agenten-Framework

Das System nutzt spezialisierte Agenten, die zusammenarbeiten:

Query Parsing & Planning Agent: Analysiert die Benutzerabfrage (Vietnamesisch/Englisch), erstellt einen strukturierten SearchPlan und identifiziert Entitäten wie Wahrzeichen.
Landmark Knowledge Agent: Dies ist ein Kernbestandteil. Er erkennt Wahrzeichen und reformuliert deren Namen in detaillierte visuelle Beschreibungen (z. B. „St. Josephs-Kathedrale" $\rightarrow$ „Zwei quadratische Glockentürme, dunkelgrauer Stein, gotische Architektur"). Dies schließt die semantische Lücke für CLIP, da das Modell oft besser auf visuelle Beschreibungen als auf Eigennamen reagiert.
Orchestrator: Führt die Suchschritte parallel aus:
- Semantische Suche (über CLIP-Embeddings).
- ASR/OCR-Suche (über Elasticsearch).
- Objektfilterung (logische AND/OR-Verknüpfungen).
Reranking & Answer Agent: Fusioniert die Ergebnisse der verschiedenen Modalitäten mittels gewichteter Durchschnittsbildung. Ein multimodaler LLM synthetisiert eine kohärente, begründete Antwort unter Verweis auf spezifische Videoframes.

C. LLM-gestützte Bild-zu-Bild-Suche (Image-to-Image)

Um die Grenzen textbasierter Suchen für Wahrzeichen zu überwinden, wurde eine automatisierte Pipeline entwickelt:

Der Agent erkennt Wahrzeichen und generiert optimierte Suchanfragen für das Web.
Über die Google Custom Search API werden repräsentative Referenzbilder abgerufen.
Diese Bilder werden mit CLIP kodiert und gegen die Videodatenbank (Milvus) abgeglichen.
Dies ermöglicht eine vollautomatische, kulturell fundierte Suche ohne manuelle Bildeingabe.

3. Wichtige Beiträge

LLandMark-Architektur: Ein modulares Multi-Agenten-System für adaptive Planung, Wahrzeichen-Reasoning und multimodales Reranking.
Hybride OCR-Verbesserung: Eine Pipeline, die PaddleOCR mit Gemini 2.5 Flash (via LlamaIndex) kombiniert, um die Qualität vietnamesischer Texterkennung drastisch zu verbessern (Wiederherstellung von Diakritika).
Automatisierte Bild-zu-Bild-Suche: Ein LLM-gestützter Workflow, der Wahrzeichen automatisch detektiert, Referenzbilder aus dem Web bezieht und CLIP-basierte Ähnlichkeitsvergleiche durchführt.
Erklärbarkeit: Das System visualisiert den Suchprozess, die Gewichtung der Modalitäten und die Evidenz für die Antwort, was Transparenz schafft.

4. Ergebnisse

Das System wurde im Rahmen des HCMAIC 2025 (Ho Chi Minh City AI Challenge) auf einem 250 GB großen Korpus evaluiert.

Quantitative Ergebnisse:
- LLandMark erreichte eine Gesamtpunktzahl von 77,40 von maximal 88 Punkten.
- Das System belegte unter mehr als 680 Teams einen Platz in den Top 56, die für die offizielle Qualifikation ausgewählt wurden.
- Die Leistung war über alle drei Evaluierungsrunden (steigende Komplexität) und alle Aufgabenkategorien (Textsuche, Visual QA, Temporales Reasoning) konsistent hoch.
Qualitative Ergebnisse:
- Im Vergleich zu reinen Embedding-Suchen (Baseline) konnte LLandMark komplexe Abfragen zu Wahrzeichen (z. B. „Bach Dang Wharf", „Ben Thanh Market") erfolgreich lösen, bei denen die Baseline versagte oder falsche Ergebnisse lieferte.
- Die Bild-zu-Bild-Suche zeigte eine höhere visuelle Treue, da sie reale Referenzbilder nutzte, anstatt sich auf generische Textbeschreibungen zu verlassen.

5. Bedeutung und Fazit

LLandMark demonstriert, wie strukturierte Suchplanung in Kombination mit LLM-Reasoning die Grenzen traditioneller multimodaler Suchsysteme überwinden kann.

Kulturelle Anpassung: Das System adressiert spezifisch die Herausforderungen vietnamesischer Daten (Sprache, Wahrzeichen), was für globale Anwendungen in nicht-englischen Kontexten ein wichtiges Vorbild ist.
Effizienz und Flexibilität: Durch den Verzicht auf manuelle Bildeingaben und die Nutzung von Agenten für dynamische Suchpläne ist das System sowohl skalierbar als auch anpassungsfähig.
Zukunftsperspektive: Die Arbeit legt den Grundstein für zukünftige Systeme, die Sehen, Sprache und logisches Reasoning integrieren, um menschenzentrierte, interpretierbare Video-Retrieval-Lösungen zu schaffen.

Zusammenfassend bietet LLandMark einen robusten, erklärbaren und kulturell sensiblen Ansatz für die Suche in großen, heterogenen Videodatenbeständen.