Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations

Dit onderzoek vergelijkt de prestaties van mensen en AI bij het herkennen van ego-centrische acties en toont aan dat mensen sterk afhankelijk zijn van specifieke, semantische visuele aanwijzingen, terwijl modellen juist meer vertrouwen op contextuele kenmerken en minder gevoelig zijn voor ruimtelijke en tijdelijke verstoringen.

Sadegh Rahmaniboldaji, Filip Rybansky, Quoc C. Vuong, Anya C. Hurlbert, Frank Guerin, Andrew Gilbert

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

De Kern: Mensen vs. Robots bij het Kijken naar Acties

Stel je voor dat je en een slimme camera (een AI) samen in een keuken staan. Jullie kijken allebei naar iemand die een handeling uitvoert, zoals een mes vasthouden en een appel snijden. De vraag is: wat is het allerminst dat jullie nodig hebben om te weten wat er gebeurt?

Dit onderzoek vergelijkt hoe mensen en de nieuwste AI-modellen kijken naar deze acties, vooral als we de beelden opzettelijk "verpesten" door ze te knippen, te verkleinen of door de volgorde van de beelden door elkaar te halen.

1. De "Minimale Foto" (MIRCs)

De onderzoekers hebben een slimme truc bedacht. Ze nemen een video en knippen er steeds kleinere stukjes van af, alsof je door een sleutelgat kijkt.

  • MIRC (Minimale Herkenbare Configuratie): Dit is het kleinste stukje van de video dat een mens nog kan herkennen. Stel, je ziet alleen de hand die het mes vasthoudt en de appel. Dat is genoeg.
  • Sub-MIRC: Als je nog kleiner knipt (bijvoorbeeld alleen de punt van het mes), kan een mens het niet meer zien.

Het verrassende resultaat:

  • Mensen: Zodra je het "belangrijke stukje" (de hand en het mes) weghaalt, vallen mensen als een baksteen. Ze zeggen: "Ik weet het niet meer!" Ze zijn afhankelijk van de essentie van de actie.
  • De AI: De AI is gek. Als je de hand en het mes wegknipt, maar de achtergrond (de aanrechtblad, de kastjes) laat staan, denkt de AI soms: "Oh, dit is nog steeds snijden!" De AI kijkt meer naar de omgeving en de sfeer dan naar de daadwerkelijke actie. Soms wordt de AI zelfs slimmer als je de foto verkleint, omdat er dan minder "ruis" (afleidende details) is.

Vergelijking:

  • De Mens is als een detective die alleen het wapen en de dader nodig heeft om de misdaad op te lossen. Als die weg zijn, is het raak.
  • De AI is als iemand die de misdaad raadt op basis van de kleur van de muren in de kamer. Als de muren nog steeds "keuken-blauw" zijn, denkt de AI: "Dit is een keukenmisdrijf," zelfs als de dader weg is.

2. De "Verwarde Video" (Tijd)

Vervolgens hebben ze de tijd in de video verstoord. Ze namen de beelden van een actie en schudden ze door elkaar, alsof je een filmrolletje in een blender doet en de stukjes weer in de juiste volgorde probeert te leggen (maar dan niet helemaal).

  • Mensen: Als je de volgorde van de beelden verstoort, maar je ziet nog steeds de hand en het mes, kunnen mensen het vaak nog wel raden. Ze zijn goed in het "invullen" van wat er moet gebeuren. Maar als de actie heel snel en complex is (zoals een dansje), raken ze de draad kwijt.
  • De AI: De AI is vaak onverschillig voor de tijd. Voor de AI maakt het vaak niet uit of de beelden in de juiste volgorde zitten. Als de beelden eruitzien alsof het "wassen" is, denkt de AI: "Ja, wassen," of het nu in de juiste volgorde is of niet. De AI kijkt meer naar statische beelden dan naar het verhaal dat de tijd vertelt.

Vergelijking:

  • De Mens kijkt naar een verhaal. Als je de bladzijden van een boek door elkaar haalt, begrijp je het verhaal niet meer, tenzij je de belangrijkste zinnen nog kunt lezen.
  • De AI kijkt naar een collage. Als er genoeg blauwe stukjes (water) en witte stukjes (schuim) in de collage zitten, denkt de AI: "Dit is een bad," of de stukjes nu in de juiste volgorde zitten of niet.

3. Wat betekent dit voor de toekomst?

Het onderzoek laat zien dat AI-modellen op benchmarks (testen) vaak heel goed scoren, maar dat ze op een heel andere manier "denken" dan mensen.

  • Het probleem: AI vertrouwt te veel op de achtergrond en statistieken, en te weinig op de echte actie (de interactie tussen hand en voorwerp).
  • De oplossing: Om betere robots en AI te maken, moeten we ze leren kijken naar wat mensen kijken: de belangrijke interacties. We moeten de AI trainen om de "dader en het wapen" te zien, in plaats van alleen de "muurkleur".

Samenvatting in één zin:

Mensen zijn experts in het zien van de essentie van een actie (wie doet wat met wat), terwijl AI vaak de omgeving en statistieken gebruikt om te raden wat er gebeurt, en daardoor soms raadselachtig goed wordt als je de beelden verstoort.

De onderzoekers hopen dat deze inzichten leiden tot slimme systemen die niet alleen goed scoren op tests, maar ook echt begrijpen wat er gebeurt in onze wereld, net zoals wij dat doen.