ForeSea: AI Forensic Search with Multi-modal Queries for Video Surveillance

Die Arbeit stellt ForeSeaQA, ein neues Benchmark-Datenset für multimodale Video-Frage-Antwort-Aufgaben mit Zeitstempeln, und ForeSea, ein darauf aufbauendes dreistufiges KI-System zur forensischen Video-Suche, vor, das bestehende Methoden in Bezug auf Genauigkeit und zeitliche Verortung deutlich verbessert.

Hyojin Park, Yi Li, Janghoon Cho, Sungha Choi, Jungsoo Lee, Taotao Jing, Shuai Zhang, Munawar Hayat, Dashan Gao, Ning Bi, Fatih Porikli

Veröffentlicht 2026-03-25
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein Detektiv, der in einem riesigen, endlosen Lagerhaus nach einem bestimmten Dieb suchen muss. Das Lagerhaus ist voller Kameras, die seit Tagen ununterbrochen filmen. Die Aufgabe: Finden Sie den Dieb, sehen Sie, wann er ein Fahrrad gestohlen hat, und zeigen Sie genau den Moment im Film.

Das Problem: Wenn Sie versuchen, alle Stunden an Filmmaterial manuell anzusehen, werden Sie wahnsinnig. Und wenn Sie einen Computer fragen: „Zeig mir den Dieb!", antworten die bisherigen KI-Systeme oft mit: „Ich habe den Dieb gesehen, aber ich weiß nicht genau, wann" oder sie zeigen Ihnen völlig falsche Szenen.

Hier kommt ForeSea ins Spiel. Die Forscher von Qualcomm haben eine neue KI-Lösung entwickelt, die wie ein super-schneller, smarter Assistent funktioniert.

1. Das Problem: Die Nadel im Heuhaufen

Bisherige Systeme waren wie jemand, der versucht, eine Nadel in einem riesigen Heuhaufen zu finden, indem er den ganzen Haufen durchsucht, ohne zu wissen, wo die Nadel sein könnte.

  • Das alte Problem: Die KIs konnten nur mit Textfragen arbeiten („Zeig mir jemanden in rotem Hemd"). Wenn Sie aber ein Foto des Diebs haben und fragen: „Zeig mir diesen Mann, wie er rennt", waren die alten Systeme oft überfordert.
  • Die Folge: Sie bekamen viele falsche Treffer und keine genauen Zeitangaben.

2. Die Lösung: ForeSea (Der intelligente Such-Assistent)

ForeSea ist wie ein Team aus drei Spezialisten, die zusammenarbeiten, um die Suche zu vereinfachen:

  • Schritt 1: Der Wächter (Tracking)
    Statt das ganze Lagerhaus zu scannen, schaut sich dieser Wächter nur die Personen an. Er ignoriert alles andere (Bäume, Autos, leere Gänge). Er schneidet den riesigen Film in kleine, handliche Clips heraus, die nur den gesuchten Menschen zeigen.

    • Analogie: Statt den ganzen Ozean zu durchsuchen, fängt der Wächter nur die Fische, die aussehen wie der gesuchte Dieb, und ignoriert das Wasser.
  • Schritt 2: Der Bibliothekar (Multimodale Suche)
    Dieser Bibliothekar ordnet die kleinen Clips nicht nur nach Text, sondern versteht auch Bilder. Sie können ihm ein Foto des Diebs zeigen und fragen: „Wann hat er gestohlen?" Der Bibliothekar versteht beides gleichzeitig und findet den passenden Clip sofort.

    • Analogie: Früher musste man in einem Buch nach dem Wort „Dieb" suchen. Jetzt können Sie dem Bibliothekar ein Foto zeigen und sagen: „Suche jemanden, der so aussieht."
  • Schritt 3: Der Detektiv (Video-LLM)
    Sobald die besten 3 Clips gefunden sind, gibt der Bibliothekar sie dem Detektiv. Der Detektiv schaut sich nur diese 3 kurzen Clips an, analysiert sie und sagt: „Ja, hier ist er! Um 10:35 Uhr hat er das Fahrrad genommen."

    • Der Clou: Weil der Detektiv nur 3 kurze Clips sieht und nicht 10 Stunden Film, ist er viel schneller und macht weniger Fehler.

3. Der neue Test: ForeSeaQA

Um zu beweisen, dass ihr System wirklich gut ist, haben die Forscher einen neuen Test entwickelt, den sie ForeSeaQA nennen.

  • Was ist das? Ein riesiger Test mit vielen Fragen, bei denen man sowohl ein Foto als auch eine Textfrage stellen muss (z. B. ein Foto einer Person + „Was macht diese Person gerade?").
  • Warum ist das wichtig? Bisher gab es keinen richtigen Test für diese Art von „Foto + Frage"-Suche in Überwachungskameras. ForeSeaQA ist wie der erste echte „Meister-Test" für Detektive, die mit Fotos arbeiten.

4. Das Ergebnis: Schneller und genauer

Die Ergebnisse sind beeindruckend:

  • Genauigkeit: ForeSea findet die richtigen Antworten und Zeitpunkte viel besser als alle vorherigen Systeme.
  • Geschwindigkeit: Da es nicht den ganzen Film durchsucht, sondern nur die relevanten Teile, ist es doppelt so schnell wie andere moderne KIs.
  • Flexibilität: Es funktioniert nicht nur in Überwachungskameras, sondern kann auch bei langen Dokumentarfilmen oder anderen Videos helfen.

Zusammenfassung in einem Satz

ForeSea ist wie ein KI-Detektiv, der nicht den ganzen Ozean durchsucht, sondern erst die richtigen Fische fängt, sie genau betrachtet und dann sofort sagt: „Hier ist der Dieb, genau um diese Uhrzeit!" – und das alles, während Sie ihm ein Foto zeigen können.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →