LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

Die Arbeit stellt LLandMark vor, ein modulares Multi-Agenten-Framework, das durch spezialisierte Agenten, die Erkennung kultureller Wahrzeichen und die Nutzung von LLMs sowie OCR-Verbesserungen eine adaptive, erklärbar und kulturell fundierte multimodale Video-Retrieval für komplexe reale Anfragen, insbesondere im vietnamesischen Kontext, ermöglicht.

Minh-Chi Phung, Thien-Bao Le, Cam-Tu Tran-Thi, Thu-Dieu Nguyen-Thi, Vu-Hung Dao

Veröffentlicht 2026-03-04
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen riesigen, unordentlichen Videolagerkeller, der so groß ist wie ein ganzer Stadtteil (250 Gigabyte!). In diesem Keller liegen Millionen von Videobändern: Nachrichten, Dokumentationen, Urlaubsfilme. Jemand kommt zu dir und sagt: „Zeig mir das Video, in dem man den Ho-Chi-Minh-Markt bei Nacht sieht, und zwar genau in der Szene, wo ein Mann interviewt wird."

Das Problem: Ein normaler Computer sucht nur nach Wörtern. Wenn du „Ho-Chi-Minh-Markt" eingibst, sucht er nach dem Text im Video oder im Ton. Aber was ist, wenn der Text im Video unscharf ist? Oder was ist, wenn der Computer den Namen des Marktes nicht kennt, aber das Aussehen des Marktes (die bunten Lichter, die Architektur)?

Hier kommt LLandMark ins Spiel. Es ist wie ein hochspezialisiertes Detektiv-Team aus KI-Agenten, das gemeinsam arbeitet, um diese schwierigen Fragen zu beantworten.

Hier ist die Erklärung, wie dieses Team funktioniert, mit ein paar einfachen Vergleichen:

1. Der Teamleiter (Der Planer)

Wenn du deine Frage stellst, ist der erste Agent wie ein erfahrener Detektiv. Er hört sich deine Frage an und denkt: „Okay, wir brauchen nicht nur nach dem Wort 'Markt' zu suchen. Wir müssen auch nach dem Aussehen des Marktes suchen und prüfen, ob im Hintergrund jemand interviewt wird."
Er erstellt einen Suchplan. Er teilt die Aufgabe auf: „Agent A, such nach Text. Agent B, such nach Bildern. Agent C, hör dem Ton zu."

2. Der Kultur-Experte (Der Landmark-Agent)

Das ist das Herzstück von LLandMark. Viele Computer verstehen vietnamesische Orte nicht gut. Wenn du sagst „Kathedrale St. Joseph", denkt ein normaler Computer vielleicht nur an das Wort.
Der Landmark-Agent ist wie ein lokaler Reiseleiter. Er weiß: „Ah, die Kathedrale St. Joseph hat zwei quadratische Glockentürme, ist aus dunkelgrauem Stein und sieht gotisch aus."
Er verwandelt den Namen in eine Bildbeschreibung. Statt nur nach dem Wort zu suchen, sagt er dem Suchsystem: „Suche nach etwas mit zwei quadratischen Glockentürmen und gotischem Stein." Das hilft dem Computer, das Bild zu erkennen, auch wenn das Wort im Video gar nicht steht.

3. Der Text-Reiniger (Der OCR-Agent)

In Videos steht oft Text auf Bildschirmen (z. B. Nachrichten-Ticker). Aber wenn man diesen Text mit einer Kamera abfotografiert und der Computer ihn liest, macht er oft Fehler, besonders bei vietnamesischen Zeichen mit vielen Akzenten (wie á, , ). Es sieht dann aus wie Kauderwelsch.
Hier kommt ein Text-Reiniger ins Spiel. Er nimmt den schmutzigen, fehlerhaften Text und putzt ihn auf. Er nutzt eine super-smarte KI (Gemini), um die Akzente wieder hinzuzufügen und die Rechtschreibung zu korrigieren, als würde ein Lehrer einen Schülerheft korrigieren. Erst dann kann das System den Text wirklich verstehen.

4. Der Bild-Detektiv (Die Bild-zu-Bild-Suche)

Manchmal reicht ein Wort nicht. Stell dir vor, du suchst nach einem bestimmten Gebäude, hast aber keine Ahnung, wie es heißt, aber du hast ein Foto davon im Kopf.
Normalerweise müsstest du dieses Foto manuell hochladen. LLandMark macht das automatisch!

  • Schritt 1: Der Agent erkennt: „Du meinst den Ben Thanh Markt."
  • Schritt 2: Er geht ins Internet (wie ein Suchmaschinen-Bot), findet echte Fotos dieses Marktes.
  • Schritt 3: Er vergleicht diese echten Fotos mit allen Videobildern in deinem riesigen Keller.
  • Ergebnis: Er findet genau das Video, das dem Foto am ähnlichsten sieht. Das ist wie wenn du jemandem ein Foto zeigst und sagst: „Finde mir den Ort, der so aussieht!"

5. Der Chef-Editor (Der Zusammenführer)

Alle Agenten schicken ihre Ergebnisse zurück. Der Chef-Editor (der Reranking-Agent) schaut sich alle Hinweise an:

  • „Der Text passt."
  • „Das Bild sieht aus wie der Markt."
  • „Im Tonfall hört man das Interview."
    Er kombiniert alles zu einer perfekten Antwort und zeigt dir genau den Videomoment an, der deine Frage beantwortet.

Warum ist das so cool?

Frühere Systeme waren wie starre Roboter: Sie suchten nur nach exakten Wörtern. Wenn du einen Fehler gemacht hast oder ein Wort nicht kannten, fanden sie nichts.
LLandMark ist wie ein menschlicher Detektiv mit einem super-intelligenten Team:

  • Es versteht den Kontext (Orte, Kultur).
  • Es korrigiert Fehler (schlechte Texterkennung).
  • Es nutzt Bilder als Suchwerkzeug, nicht nur Worte.

Am Ende hat dieses Team in einem großen Wettbewerb (HCMAIC 2025) gegen über 680 andere Teams angetreten und sich unter die Top 56 gekämpft. Es beweist, dass man Videos nicht nur mit Wörtern, sondern mit „Verständnis" durchsuchen kann – besonders wenn es um komplexe Szenen in Vietnam geht.

Kurz gesagt: LLandMark ist der Schlüssel, der dir erlaubt, in einem riesigen Videolager nicht nur nach dem Etikett zu suchen, sondern das Objekt selbst zu erkennen, zu verstehen und zu finden.