EventMemAgent: Hierarchical Event-Centric Memory for Online Video Understanding with Adaptive Tool Use

Die Arbeit stellt EventMemAgent vor, ein aktives Agenten-Framework, das durch ein hierarchisches Gedächtnis und adaptiven Werkzeuggebrauch die Herausforderung des Online-Video-Verständnisses in unendlichen Datenströmen löst, indem es kurzfristige Ereigniserkennung mit langfristiger Ereignisarchivierung kombiniert.

Siwei Wen, Zhangcheng Wang, Xingjian Zhang, Lei Huang, Wenjun Wu

Veröffentlicht 2026-02-18
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du siehst einen Film, der niemals endet. Er läuft einfach weiter und weiter, wie ein unendlicher Strom aus Bildern. Jetzt stell dir vor, dein Gehirn (oder in diesem Fall eine künstliche Intelligenz) hat nur ein sehr kleines Notizbuch, in das es nur wenige Seiten gleichzeitig schreiben kann.

Das ist das große Problem bei der "Online-Video-Verstehung": Wie kann eine KI einen unendlichen Film verstehen, wenn ihr "Gedächtnis" so klein ist, dass sie alles Vergangene schnell wieder vergisst?

Die Autoren dieses Papiers haben eine Lösung namens EventMemAgent entwickelt. Hier ist die Erklärung, wie das funktioniert, ganz einfach und mit ein paar Bildern im Kopf:

1. Das Problem: Der "Fließband-Effekt"

Bisherige KIs arbeiten wie ein passiver Zuschauer am Fließband. Sie schauen sich Bilder an, schreiben sie in ihr kleines Notizbuch und wenn das Buch voll ist, werfen sie die alten Seiten einfach weg.

  • Das Problem: Wenn du gerade einen wichtigen Moment verpasst hast, weil das Buch voll war, oder wenn du dich an etwas erinnern musst, das vor 10 Minuten passierte, ist es weg. Oder schlimmer: Die KI merkt sich nur die letzten paar Sekunden, aber vergisst den Kontext, was vorhin passiert ist.

2. Die Lösung: Der "Event-Agent" mit zwei Gedächtnis-Ebenen

EventMemAgent ist wie ein sehr organisierter Detektiv, der nicht einfach nur zuschaut, sondern aktiv arbeitet. Er nutzt zwei Arten von Gedächtnis:

A. Das Kurzzeit-Gedächtnis (Der "Aktuelle Fall")

Stell dir vor, der Detektiv hat einen kleinen Schreibtisch (das Kurzzeitgedächtnis).

  • Keine starren Grenzen: Früher teilten KIs Videos in starre 30-Sekunden-Blöcke auf. Das ist dumm, weil eine Handlung (z. B. "Jemand schneidet eine Zwiebel") genau in der Mitte eines Blocks abgeschnitten werden könnte.
  • Intelligente Schnitte: EventMemAgent wartet, bis eine Handlung abgeschlossen ist. Wenn jemand eine Zwiebel schneidet, hält er den Block offen, bis die Zwiebel fertig ist. Erst dann macht er einen neuen Block auf.
  • Der "Reservoir-Trick": Wenn eine Handlung sehr lange dauert (z. B. jemand malt ein Bild für 10 Minuten), würde der Schreibtisch sonst platzen. Der Agent nutzt hier einen cleveren Trick: Er behält nicht jedes einzelne Bild, sondern wählt zufällig ein paar repräsentative Bilder aus, die den ganzen Vorgang zusammenfassen. So bleibt Platz für Neues, ohne den Kontext zu verlieren.

B. Das Langzeit-Gedächtnis (Der "Aktenkoffer")

Sobald eine Handlung auf dem Schreibtisch fertig ist, wird sie nicht weggeworfen. Der Agent packt sie in einen ordentlichen Aktenkoffer (das Langzeitgedächtnis).

  • Er schreibt nicht nur "Bild 1, Bild 2, Bild 3" auf.
  • Er schreibt eine Zusammenfassung (z. B. "Jemand hat eine Zwiebel geschnitten"), speichert ein Schlüsselsbild (den ersten Moment) und notiert sich, was sich geändert hat.
  • Wenn der Agent später gefragt wird: "Was hat die Person vor 5 Minuten gemacht?", greift er nicht blind auf alte Bilder zu, sondern sucht gezielt in seinen Akten nach dem passenden "Fall".

3. Der aktive Werkzeugkasten: "Ich suche, also finde ich"

Das ist vielleicht der coolste Teil. Früher mussten KIs warten, bis jemand ihnen die richtigen Bilder schickte. EventMemAgent ist aktiv.

  • Er hat einen Werkzeugkasten dabei.
  • Wenn er eine Frage bekommt, denkt er: "Hmm, ich brauche mehr Details."
  • Dann greift er zu:
    • Suche im Aktenkoffer: "Was ist vorhin passiert?"
    • Text-Scanner (OCR): "Was steht auf diesem Schild?"
    • Objekt-Erkennung: "Ist das wirklich ein Hund oder nur ein Spielzeug?"
  • Er holt sich die Informationen genau dann, wenn er sie braucht, statt alles auf einmal zu speichern.

4. Das Training: Lernen durch "Verstärkung"

Wie lernt der Agent, diese Werkzeuge richtig zu benutzen? Durch Agentic Reinforcement Learning (eine Art Belohnungssystem).

  • Stell dir vor, der Agent ist ein Schüler. Wenn er die richtige Antwort findet, bekommt er einen Punkt. Wenn er die falschen Werkzeuge benutzt oder vergisst, nachzufragen, bekommt er keinen Punkt.
  • Nach vielen Versuchen lernt er von selbst: "Aha! Wenn die Frage nach der Vergangenheit geht, muss ich zuerst im Aktenkoffer suchen. Wenn es um Text geht, muss ich den Scanner benutzen." Er internalisiert diese Strategie, bis sie zur zweiten Natur wird.

Zusammenfassung in einem Satz

EventMemAgent ist wie ein super-organisierter Filmkritiker, der unendliche Filme nicht einfach nur ansieht, sondern sie in sinnvolle Szenen unterteilt, diese in einem gut sortierten Archiv ablegt und bei Fragen aktiv seine Werkzeuge nutzt, um die perfekten Details zu finden – alles ohne sein kleines Notizbuch zu überfüllen.

Das Ergebnis? Die KI versteht lange Videos viel besser als frühere Modelle, braucht weniger Rechenleistung und kann sich an Dinge erinnern, die vor langer Zeit passiert sind, ohne den Überblick zu verlieren.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →