The Human Brain as a Dynamic Mixture of Expert Models in… — Begrijpelijke uitleg

Oorspronkelijke auteurs: Sartzetaki, C., Zonneveld, A. W., Oyarzo, P., Gifford, A. T., Cichy, R. M., Mettes, P., Groen, I. I.

Gepubliceerd 2026-02-24

📖 5 min leestijd🧠 Diepgaand

Bekijk op bioRxiv ↗PDF ↗

CC BY 4.0

Oorspronkelijke auteurs: Sartzetaki, C., Zonneveld, A. W., Oyarzo, P., Gifford, A. T., Cichy, R. M., Mettes, P., Groen, I. I.

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/). ⚕️ Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

De Menselijke Hersenen als een Slimme "Mix van Experts" voor Video's

Stel je voor dat je hersenen niet één grote, statische computer zijn, maar eerder een dynamisch orkest of een slimme team van specialisten die elkaar afwisselen terwijl je naar een video kijkt. Dat is de kernboodschap van dit nieuwe onderzoek, gepubliceerd bij de topconferentie ICLR 2026.

De onderzoekers wilden weten: Hoe precies werkt ons brein als we naar bewegende beelden kijken, en kunnen we dit nabootsen met slimme computers?

Hier is een simpele uitleg van wat ze hebben ontdekt, met een paar leuke vergelijkingen:

1. Het Probleem: Foto's vs. Video's

Vroeger keken wetenschappers alleen naar foto's om te zien hoe het brein werkt. Dat is als proberen een film te begrijpen door alleen naar de eerste frame te staren. Je mist de beweging, de actie en het verhaal.
In dit onderzoek hebben ze gekeken naar echte video's (3 seconden lang) en tegelijkertijd de hersenactiviteit gemeten van mensen met een EEG-muts (een soort hoed met elektrodes die de elektrische signalen van je hersenen opvangt).

2. De Methode: De "Tijds-Match" (CT-RSA)

Hoe vergelijk je een computermodel met een menselijk brein?

Het Brein: Reageert in milliseconden. Het is een stroom van signalen die continu verandert.
De Computer: Kijkt vaak naar beelden in blokken of op vaste momenten.

De onderzoekers bedachten een slimme methode (noem het de "Tijds-Match"). Ze lieten de computer niet alleen op één moment kijken, maar lieten hem door de hele video "glijden" en zochten op elk moment: "Welk deel van de computer, op welk exact moment, lijkt het meest op wat er nu in het brein gebeurt?"

Ze testten hiermee meer dan 100 verschillende computermodellen.

3. De Ontdekking: Twee Verschillende Teams in je Hoofd

Het meest fascinerende is dat het brein niet één ding doet. Het schakelt van team, afhankelijk van waar je naar kijkt en hoe lang je het al doet. Ze zagen dit in twee delen van het hoofd:

A. Het Achterste Deel (De "Visuele Verwerker")

Dit deel zit achterin je hoofd, waar je visuele informatie verwerkt.

Het begin (0 - 0,2 sec): Het brein kijkt eerst naar de vormen en kleuren. Het is alsof je een foto bekijkt. De computermodellen die alleen foto's herkennen, doen het hier het beste.
Midden (0,2 - 0,8 sec): Het brein begint objecten te herkennen (een bal, een auto).
Laat (0,8 sec - einde): Nu wordt het interessant! Het brein schakelt over naar actie. Het kijkt niet meer naar wat er is, maar naar wat er gebeurt (een bal die wordt gegooid, een auto die remt).
- De verrassing: De computermodellen die het beste meekomen in dit stadium, zijn modellen die speciaal zijn getraind om beweging en tijd te begrijpen (zoals de nieuwe "State-Space" modellen).
- De les: Het achterste deel van je brein is een dynamische expert. Het begint als een fotograaf en eindigt als een regisseur die de actie volgt.

B. Het Voorste Deel (De "Strategische Chef")

Dit deel zit in je voorhoofd en is verantwoordelijk voor hogere denkprocessen.

Hier gebeurt iets heel anders. Dit deel reageert snel (binnen de eerste seconde) en blijft dan stabiel.
Het schijnt te werken met samenvattingen. Het kijkt niet naar elke beweging in de video, maar pakt snel de "hoofdlijn" of het doel van de actie.
De vergelijking: Als het achterste deel de camera is die alles vastlegt, is het voorste deel de regisseur die snel zegt: "Ah, dit is een scène waarin iemand rent." Het houdt zich niet bezig met de details van elke stap, maar met het grote plaatje.

4. De Grootste Conclusie: Geen Enkele "Super-Model"

De onderzoekers ontdekten dat geen enkele computer het hele filmpje perfect kan nabootsen.

Sommige modellen zijn goed voor het begin (foto's).
Andere zijn goed voor het midden (beweging).
Weer anderen zijn goed voor het einde (samenvatting).

De Metafoor:
Onze hersenen gedragen zich als een "Mix van Experts" (Mixture of Experts).
Stel je een bedrijf voor waar je binnenkomt.

Eerst wordt je begroet door de receptionist (herkent vormen).
Dan ga je naar de technicus (herkent objecten).
Daarna naar de projectmanager (begrijpt de actie en het verhaal).
Tot slot naar de CEO (trekt de conclusie).

Elke computer die we nu bouwen, is vaak maar één van deze mensen. De onderzoekers zeggen: "Om een echt slimme AI te bouwen die net als een mens video's begrijpt, moeten we een systeem maken dat dynamisch kan schakelen tussen deze verschillende experts."

Waarom is dit belangrijk?

Dit onderzoek laat zien dat we voor de toekomst van kunstmatige intelligentie niet alleen moeten kijken naar hoe goed een model een foto herkent, maar ook naar hoe het tijd en beweging verwerkt. De menselijke hersenen zijn slim omdat ze weten wanneer ze welke "expert" moeten gebruiken. Als we dat in computers kunnen nabootsen, krijgen we AI die niet alleen "slimmer" is, maar ook efficiënter en menselijker in het begrijpen van onze dynamische wereld.

Probleemstelling

De menselijke hersenen zijn uitzonderlijk efficiënt in het verwerken van dynamische visuele input (video's). Hoewel er veel onderzoek is gedaan naar de afstemming (alignment) tussen diepe neurale netwerken (DNN's) en hersenactiviteit, focust het merendeel van de bestaande werken op fMRI-metingen bij statische beelden. Dit heeft twee belangrijke beperkingen:

Temporele resolutie: fMRI heeft een trage hemodynamische respons, waardoor het de snelle, milliseconde-schaal dynamiek van neurale verwerking niet kan vastleggen.
Stimulus-limiet: Statische beelden missen de temporele context die essentieel is voor het begrijpen van video's.

Er ontbreekt een grootschalige benchmark die model-afstemming test op dynamische EEG-data (electro-encefalografie) van natuurlijke video's, en die rekening houdt met de tijdsafhankelijke evolutie van zowel hersenresponsen als modelfeatures.

Methodologie

De auteurs introduceren een nieuwe methode en dataset om deze lacune op te vullen:

Dataset (EEG Moments Dataset - EEGMD):
- Een nieuwe, grootschalige EEG-dataset met 128 elektroden.
- Bestaat uit 1102 korte (3 seconden) natuurlijke video's uit de "Moments in Time" dataset.
- Opnamefrequentie: 1000 Hz (later downgesampled naar 50 Hz voor analyse).
- Gebruikt een testset met 102 video's (24 herhalingen per video) om een hoog signaal-ruisverhouding te garanderen.
Model Benchmark:
- Analyse van 110+ modellen, waaronder statische beeldmodellen (ImageNet, Kinetics), video-actiemodellen, en nieuwe architecturen zoals State-Space Models (SSMs) (bijv. VideoMamba) naast CNN's en Transformers.
- Modellen worden getraind op verschillende taken (objectherkenning vs. actieherkenning) en met verschillende pre-training strategieën (supervised, self-supervised, geen pre-training).
Cross-Temporal Representational Similarity Analysis (CT-RSA):
- Dit is de kerninnovatie. Traditionele RSA vergelijkt statische representaties. CT-RSA vergelijkt tijds-ontvouwde (time-unfolded) modelfeatures met dynamische EEG-tijdreeksen zonder aannames te doen over de tijdsvertraging.
- Proces:
  - Voor elk EEG-tijdstip ( $t_N$ ) wordt een Representational Dissimilarity Matrix (RDM) berekend voor een subset van elektroden.
  - Voor elk model worden features over tijd en lagen geëxtraheerd en ook omgezet in RDM's ( $t_M$ ).
  - De methode berekent de Spearman-correlatie ( $\rho$ ) tussen elke mogelijke combinatie van model-tijdstip/lagen en EEG-tijdstip.
  - Het maximale correlatiescore wordt gekozen voor elk EEG-tijdstip, waardoor de "beste" match tussen model en hersenen wordt gevonden.
- Dit resulteert in meer dan $10^7$ afstemmingsscores die geanalyseerd worden.
Elektrode Segmentatie:
- Posteriore elektroden: Overlappen met visuele cortex (verwerking van visuele input).
- Frontale elektroden: Overlappen met prefrontale cortex (executieve functies, hogere semantische verwerking).

Belangrijkste Resultaten

De analyse onthult dat hersenverwerking tijdens het kijken naar video's niet lineair is, maar bestaat uit distincte fasen met verschillende neurale voorkeuren:

Dynamische fasen in posteriore cortex (Visuele verwerking):
- Fase I (0.06s - 0.24s): Afstemming op statische, laag-niveau features. Statische beeldmodellen presteren hier het beste.
- Fase II (0.24s - 0.8s): Afstemming op statische, hoog-niveau objectrepresentaties. Objectherkenningsmodellen (bijv. DenseNet) presteren hier het beste.
- Fase III (0.8s - 2s): Een verschuiving naar temporeel-integrerende actie-features. Video-modellen (vooral SSM's) presteren hier significant beter dan statische modellen. Er is een sterke temporele correspondentie: latere EEG-tijdstippen corresponderen met latere model-tijdstippen.
- Fase IV (2s - 3s): Stabilisatie van de afstemming op temporeel-integrerende features.
Frontale cortex (Semantische verwerking):
- Verwerking is beperkt tot de vroege fasen (I en II, tot ~0.8s).
- Frontale activiteit correleert het beste met statische, hoog-niveau actie-representaties.
- In tegenstelling tot de posteriore cortex, is er geen duidelijke temporele correspondentie tussen model-tijd en EEG-tijd in de frontale regio; de hersenen lijken hier snel een statisch semantisch beeld te vormen dat niet dynamisch evolueert met de video-inhoud.
Invloed van Architectuur en Pre-training:
- State-Space Models (SSMs): Bieden de beste afstemming op de intermediaire posteriore activiteit (Fase II/III), wat suggereert dat recurrente verwerking essentieel is voor het integreren van actie-informatie.
- Pre-training:
  - Self-supervised pre-training is het meest gunstig in Fase II (objectverwerking).
  - Geen pre-training (of pure supervised finetuning) presteert beter in Fase III (temporeel-integrerende fase), mogelijk omdat pre-training "shortcut learning" van irrelevante patronen introduceert die de verwerking van dynamische features belemmeren.

Kernbijdragen

Eerste grootschalige EEG-benchmark: De eerste studie die 100+ modellen vergelijkt met dynamische EEG-data van natuurlijke video's.
CT-RSA Methode: Een nieuwe analysetechniek die de maximale afstemming vindt tussen tijds-ontvouwde modelfeatures en hersenresponsen, waardoor temporele dynamiek expliciet wordt gemodelleerd.
Inzicht in Temporele Hiërarchie: Het weerleggen van het idee van een strikte, lineaire temporele hiërarchie. In plaats daarvan wordt er een dynamische mengeling van expert-modellen waargenomen: de hersenen schakelen dynamisch tussen statische objectverwerking en temporeel-integrerende actieverwerking.
Locatie-specifiek gedrag: Het onderscheid tussen posteriore cortex (die de video-inhoud dynamisch volgt) en frontale cortex (die vroeg een statisch semantisch oordeel vormt).

Significantie en Implicaties

Voor de Cognitieve Neurowetenschap: De studie toont aan dat het menselijk brein tijdens video-verwerking niet één vast patroon volgt, maar fungeert als een "Dynamic Mixture of Experts". Het schakelt tussen verschillende verwerkingsstrategieën (statisch vs. dynamisch) afhankelijk van de tijd en de hersenregio. Dit suggereert dat feedback van frontale naar posteriore gebieden mogelijk de latere fasen van visuele verwerking beïnvloedt.
Voor Machine Learning:
- Er is geen enkel bestaand model dat perfect overeenkomt met het hele verloop van hersenactiviteit.
- Toekomstige modellen zouden moeten worden ontworpen om dynamisch te schakelen tussen statische en temporeel-integrerende "experts".
- State-Space Models (SSMs) en recurrente architecturen lijken beter geschikt voor de verwerking van dynamische actie-informatie dan pure CNN's of Transformers.
- De studie suggereert dat een combinatie van self-supervised pre-training (voor generalisatie) en specifieke finetuning (voor vermijden van bias in dynamische taken) de beste route is voor brain-aligned AI.

De paper concludeert dat het begrijpen van deze dynamische mengeling essentieel is voor het bouwen van efficiëntere, mensachtige AI-systemen voor video-interpretatie.

The Human Brain as a Dynamic Mixture of Expert Models in Video Understanding