EgoGraph: Temporal Knowledge Graph for Egocentric Video Understanding

EgoGraph is een trainingsvrij, dynamisch kennisgrafiek-framework dat ultra-lange egocentrische video's analyseert door langdurige, cross-entiteit afhankelijkheden te modelleren, waardoor het state-of-the-art prestaties behaalt op benchmarks voor langdurig videovraag-antwoord.

Shitong Sun, Ke Han, Yukai Huang, Weitong Cai, Jifei Song

Gepubliceerd 2026-03-02
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een camera op je bril hebt zitten, 24 uur per dag, gedurende een hele week. Je ziet alles wat je doet: wat je eet, wie je ontmoet, waar je bent en wat je aanraakt. Dat is een ultra-lange egocentrische video.

Het probleem? Als je na een week vraagt: "Waar heb ik die blauwe mok voor het laatst gezien?" of "Wie heeft er gisteren koffie gedronken?", is het voor een computer een nachtmerrie om dat antwoord te vinden. Bestaande programma's kijken vaak naar kleine stukjes video (zoals losse fotootjes) en proberen die los van elkaar te begrijpen. Ze vergeten de connecties tussen wat je vandaag deed en wat je drie dagen geleden deed.

Hier komt EgoGraph om de hoek kijken. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De "Vergeten" Stapel Foto's vs. De Slimme Dagboeken

Stel je voor dat je al je herinneringen in een enorme, ongeordende stapel losse foto's bewaart. Als je iets zoekt, moet je elke foto één voor één bekijken. Dat is wat oude methoden doen.

EgoGraph doet iets anders. Het bouwt een levend dagboek of een slimme kennisnetwerk. In plaats van losse foto's, maakt het een kaart van je leven met drie belangrijke regels:

  • Wie, Wat en Waar: Het herkent mensen, voorwerpen, locaties en gebeurtenissen.
  • Hoe ze verbonden zijn: Het weet dat "Juf Anna" en "de vergaderzaal" met elkaar te maken hebben.
  • Wanneer: Dit is het geheim. Het houdt niet alleen bij wat er gebeurde, maar ook precies wanneer.

2. De Analogie van de "Slimme Bibliothecaris"

Stel je een bibliotheek voor.

  • Oude methode: De bibliothecaris heeft duizenden losse krantenknipsels. Als je vraagt: "Wat deed ik maandag?", moet hij alle kranten van maandag doorzoeken, en dan die van dinsdag, en hopen dat hij de juiste link vindt.
  • EgoGraph: Deze bibliothecaris heeft een dynamisch stamboom-diagram van je leven.
    • Als je vandaag een kopje koffie drinkt, schrijft hij niet alleen "koffie drinken" op. Hij koppelt het aan de persoon "Jij", de locatie "Keuken" en het tijdstip "08:00".
    • Als je morgen weer koffie drinkt, kijkt hij niet naar een nieuwe losse pagina. Hij voegt het toe aan dezelfde lijn van "Jij" en "Koffie". Zo ziet hij dat jij elke ochtend koffie drinkt.

3. Het Grote Geheim: Tijd als een Echte Speler

De grootste kracht van EgoGraph is dat het tijd serieus neemt.
Stel je vraagt: "Wie heb ik gisteren ontmoet?"

  • Een gewone computer kan verwarren en zeggen: "Misschien die persoon die je maandag zag?"
  • EgoGraph gebruikt een tijdsfilter. Het zegt: "Stop! Kijk alleen naar wat er is gebeurd vóór gisterenavond." Het negeert alles wat in de toekomst ligt of te lang geleden is. Dit voorkomt dat het antwoord "vergiftigd" wordt door informatie die nog niet bestaat of niet relevant is.

4. Waarom is dit zo slim? (De "Menselijke" aanpak)

Mensen onthouden niet alles letterlijk. We onthouden patronen.

  • Als je ziet dat "Jan" elke dinsdag in de "Kantine" is, onthoudt de mens: "Jan is elke dinsdag in de kantine."
  • EgoGraph doet dit automatisch. Als het ziet dat "Jan" en "Koffie" drie dagen op rij op hetzelfde tijdstip verbonden zijn, concludeert het: "Ah, Jan drinkt elke ochtend koffie."

Het systeem groeit niet onbeperkt uit tot een rommelige berg papier. Het smaakt (samenvoegt) oude informatie. Als je "Jouw" profiel al bestaat, update hij die alleen met nieuwe details, in plaats van een nieuwe "Jouw"-pagina te maken.

Samenvatting in één zin

EgoGraph is als een super-slimme, onuitputtelijke dagboekschrijver die niet alleen noteert wat je doet, maar ook een kaart tekent van wie, wat en waar, met een tijdslijn erbij, zodat je op elk moment kunt vragen: "Wat gebeurde er precies toen?" zonder dat het systeem in de war raakt door de enorme hoeveelheid video.

Dankzij deze methode kunnen computers nu eindelijk echt "onthouden" wat er in een week vol leven is gebeurd, net als een mens dat zou doen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →