Agentic Very Long Video Understanding

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een bril draagt die de hele dag aan staat, zoals de Ray-Ban Meta-bril. Deze bril filmt alles wat je ziet en hoort: je ochtendkoffie, je werk, je wandeling in het park, en je avondeten. Na een week heb je duizenden uren aan video-opnames.

De vraag is: Hoe kun je als computer die week aan video's doorzoeken om een specifiek antwoord te vinden?

Stel, je vraagt: "Wie zat er gisteren naast me in de taxi, en hoe vaak heb ik die week water gedronken?"

Normale computers (zoals de huidige AI) raken hierdoor in de war. Ze kunnen niet zo lang "onthouden" en vergeten snel wie wie is. Ze kijken naar één klein stukje video en zeggen: "Ik zie een taxi, maar ik weet niet wie erin zat."

De auteurs van dit paper hebben een slimme oplossing bedacht, genaamd EGAgent. Hier is hoe het werkt, vertaald naar simpele taal met een paar creatieve vergelijkingen:

1. Het Probleem: De "Oneindige" Videoband

Stel je voor dat je een videoband hebt van 50 uur lang. Als je die band afspoelt om iets te vinden, duurt het eeuwen.

Huidige AI: Probeer de hele band in één keer te "lezen". Dat is als proberen een heel bibliotheek in één seconde te lezen. Het lukt niet, of het resultaat is heel onnauwkeurig.
Het doel: Een assistent die zich alles herinnert, net als een mens die na een week nog kan zeggen: "Oh ja, die dinsdag was ik met Shure in de taxi."

2. De Oplossing: De "Gedachtenkaarten" (Entity Scene Graphs)

In plaats van te proberen de hele video op te slaan, maakt EGAgent eerst een samenvatting van de verhaallijnen.

Stel je voor dat je een detective bent die een groot bord met prikkers en touwtjes maakt.

De prikkers zijn de mensen, objecten en plekken (bijv. "Jake", "Taxi", "Koffiekop").
De touwtjes zijn de relaties (bijv. "Jake praat met Shure", "Jake gebruikt de taxi").
De tijd: Elk touwtje heeft een label met een tijdstip erbij.

Dit noemen ze een Entity Scene Graph. Het is geen saaie lijst, maar een levendig web van wie wat deed, met wie en op welk moment. Als je nu vraagt: "Wie zat er in de taxi?", hoeft de computer niet naar de video te kijken. Hij kijkt gewoon op zijn bord: "Ah, ik zie een touwtje tussen 'Jake' en 'Taxi' op dinsdag om 14:00, en daar hangt 'Shure' aan."

3. De Agent: De Slimme Detective

EGAgent is niet één robot, maar een team van specialisten die samenwerken, geleid door een Planner (de detective).

Wanneer je een vraag stelt, doet de planner het volgende:

Plannen: Hij beseft dat hij niet alles tegelijk kan doen. Hij breekt je vraag op in kleine stukjes.
- Stap 1: Zoek uit wie er in de taxi zat.
- Stap 2: Zoek uit wat er gezegd werd in de taxi.
- Stap 3: Zoek uit of er nog iemand anders bij was.
Zoeken met drie gereedschappen:
- Het Visuele Zoektoestel: Kijkt snel naar plaatjes om te zien of er een taxi te zien is.
- Het Audio Zoektoestel: Luistert naar de transcriptie (wat er gezegd is) om namen te vinden.
- Het "Gedachtenkaarten" Zoektoestel (De Graph): Dit is de krachtigste tool. Hij zoekt direct in het web van relaties. "Toon me alle touwtjes die 'Taxi' verbinden met een 'Persoon'."
Samenvoegen: De planner neemt alle stukjes informatie die hij gevonden heeft, plakt ze aan elkaar en geeft je het antwoord.

4. Waarom is dit zo goed?

Stel je voor dat je een boek leest.

Huidige methoden proberen het hele boek uit hun hoofd te onthouden. Als het boek 1000 pagina's is, vergeten ze pagina 500.
EGAgent maakt eerst een inhaltsopgave en een register van het boek. Als je vraagt: "Wat gebeurde er op pagina 500?", slaat hij direct op die pagina, in plaats van het hele boek te moeten lezen.

Dankzij deze "inhaltsopgave" (de Entity Graph) kan EGAgent vragen beantwoorden die heel moeilijk zijn voor andere AI's, zoals:

"Hoe vaak heb ik deze week water gedronken?" (Het telt alle momenten in het web).
"Wie was de enige persoon die ik elke dag sprak?" (Het vergelijkt de dagen in het web).

Conclusie

Deze paper introduceert een manier om AI te laten denken als een mens die een dagboek en een fotoalbum bijhoudt, in plaats van een robot die probeert alles in één keer te "swalmen". Door een slim netwerk van relaties (mensen, dingen, tijden) te bouwen, kan de AI vragen beantwoorden over weken aan video, alsof het er zelf bij was.

Het is alsof je van een trage, vergetelijke robot een scherpzinnige, onthoudende assistent maakt die precies weet wie er gisteren in de taxi zat.

Agentic Very Long Video Understanding

1. Het Probleem: De "Oneindige" Videoband

2. De Oplossing: De "Gedachtenkaarten" (Entity Scene Graphs)

3. De Agent: De Slimme Detective

4. Waarom is dit zo goed?

Conclusie

Titel: Agentic Very Long Video Understanding

1. Het Probleem

2. Methodologie: EGAgent

A. Entiteitsscene-graph Representatie

B. Het Agentic Framework

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Agentic Very Long Video Understanding

1. Het Probleem: De "Oneindige" Videoband

2. De Oplossing: De "Gedachtenkaarten" (Entity Scene Graphs)

3. De Agent: De Slimme Detective

4. Waarom is dit zo goed?

Conclusie

Titel: Agentic Very Long Video Understanding

1. Het Probleem

2. Methodologie: EGAgent

A. Entiteitsscene-graph Representatie

B. Het Agentic Framework

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning

AnchorNote: Exploring Speech-Driven Spatial Externalization for Co-Located Collaboration in Augmented Reality

Your Robot Will Feel You Now: Empathy in Robots and Embodied Agents

FIGURA: A Modular Prompt Engineering Method for Artistic Figure Photography in Safety-Filtered Text-to-Image Models

Measuring Research Convergence in Interdisciplinary Teams Using Large Language Models and Graph Analytics