Evolution of cooperation with Q-learning: the impact of information perception

Deze studie maakt gebruik van Q-learning binnen een Prisoner's Dilemma-kader om aan te tonen dat variërende informatieperceptiestructuren, met name asymmetrische informatie, de complexe evolutionaire dynamiek en het ontstaan van samenwerking cruciaal vormgeven, wat nieuwe inzichten biedt in menselijk coöperatief gedrag.

Oorspronkelijke auteurs: Guozhong Zheng, Zhenwei Ding, Jiqiang Zhang, Shengfeng Deng, Weiran Cai, Li Chen

Gepubliceerd 2026-02-04
📖 5 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Guozhong Zheng, Zhenwei Ding, Jiqiang Zhang, Shengfeng Deng, Weiran Cai, Li Chen

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ⚕️ Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

Stel je voor dat jij en een vriend een spel spelen waarbij jullie beiden moeten beslissen of je aardig bent (Coöpereren) of voor jezelf kiest ten koste van de ander (Defecteren). Dit is het klassieke "Prisoner's Dilemma" (gevangenendilemma). Als jullie beiden aardig zijn, winnen jullie allebei een beetje. Als jullie beiden voor jezelf kiezen, verliezen jullie allebei een beetje. Maar als de één aardig is en de ander niet, wordt de "aardige" persoon geplet, terwijl de "egoïstische" persoon een enorme beloning krijgt.

Meestal gaan wetenschappers die dit spel bestuderen ervan uit dat beide spelers de wereld precies hetzelfde zien. Beiden weten wat de ander de vorige keer deed, of beiden weten alleen wat zijzelf hebben gedaan.

Dit artikel stelt een andere vraag: Wat gebeurt er als de twee spelers de wereld verschillend zien? Wat als de ene speler de zetten van zijn vriend observeert, terwijl de andere speler alleen naar zichzelf kijkt?

De onderzoekers gebruikten een computeralgoritme genaamd "Q-learning" (denk aan een digitale leerling die leert door middel van vallen en opstaan, waarbij een mentale scorekaart bijhoudt van wat wel en niet werkt) om dit te simuleren. Ze testten drie verschillende "visie"-opstellingen:

  1. Het "Jij en Jij" Team (Kijken naar de ander): Beide spelers kijken alleen naar wat de ander doet.
  2. Het "Ik en Ik" Team (Kijken naar jezelf): Beide spelers kijken alleen naar wat zijzelf doen.
  3. Het "Jij en Ik" Team (Asymmetrisch): De ene speler kijkt naar de ander, terwijl de andere speler alleen naar zichzelf kijếc.

Hier is wat ze vonden, eenvoudig uitgelegd:

1. Het "Jij en Jij" Team (Kijken naar de ander)

Wanneer beide spelers alleen gefocust zijn op wat de ander doet, is het spel een puinhoop. Het is alsoal twee mensen die proberen te dansen terwijl ze alleen naar elkaars voeten staren; ze vinden geen ritme. Ze blijven wisselen tussen aardig en gemeen zijn, maar ze vinden nooit een stabiel patroon van samenwerking. Uiteindelijk geven ze meestal op en kijken ze alleen nog maar uit voor zichzelf.

2. Het "Ik en Ik" Team (Kijken naar jezelf)

Wanneer beide spelers alleen focussen op hun eigen eerdere acties, is het spel stabieler, maar ze raken ook sneller vastgelopen.

  • Het Goede: Als de verleiding om gemeen te zijn laag is, kunnen ze vast komen te zitten in een "gelukkige lus" waarbij ze voor altijd aardig blijven tegen elkaar.
  • Het Slechte: Als de verleiding om gemeen te zijn hoog is, komen ze vast te zitten in een "droevige lus" waarbij ze voor altijd gemeen tegen elkaar zijn.
  • De Valkuil: Zodra ze een lus hebben gekozen (gelukkig of droevig), is het heel moeilijk om van koers te veranderen. Het is als een trein die al vertrokken is; het gaat ofwel naar de bestemming "Vriendschap" of naar "Verraad", en het verandert zelden van spoor zodra het eenmaal is gestart.

3. Het "Jij en Ik" Team (De Gemengde Visie)

Hier gebeurt de magie. Wanneer de ene speler naar de ander kijkt en de ander naar zichzelf, wordt het spel dynamisch en verrassend effectief.

De onderzoekers ontdekten een complex, drieledig verhaal dat zich in de loop van de tijd afspeelt:

  • Fase 1: De Huwelijksreis. De twee spelers ontdekken dat aardig zijn werkt. Ze beginnen te coöpereren.
  • Fase 2: De Breuk. Eén speler (degene die naar de ander kijkt) begint hebberig te worden. Ze realiseren zich dat ze een grotere beloning kunnen krijgen door gemeen te zijn terwijl de ander nog steeds aardig is. Ze exploiteren hun partner. De aardige partner, in de war maar toch pogend om goed te blijven, blijft nog een tijdje aardig (tolerantie), maar wordt uiteindelijk gekwetst.
  • Fase 3: De Wederopbouw. De aardige partner slaat eindelijk terug. Ze besluiten ook gemeen te zijn, puur om de hebberige partner een lesje te leren. Deze "straf" doet de hebberige speler pijn, die vervolgens beseft: "Hé, gemeen zijn werkt niet meer." De hebberige speler schakelt terug naar aardig zijn. De cyclus reset, en ze bouwen een sterkere, meer veerkrachtige samenwerking op dan voorheen.

De Belangrijkste Conclusie

De meest verrassende bevinding is dat deze gemengde visie (Asymmetrisch) opstelling zelfs leidt tot snellere en sterkere samenwerking dan de opstellingen waarbij iedereen dezelfde wereld ziet.

Denk aan een relatie:

  • Als jij en je partner alleen naar je eigen gevoelens kijken, kun je in een sleur terechtkomen.
  • Als jullie beiden alleen naar elkaar staren, kun je angstig en onstabiel worden.
  • Maar als de een gefocust is op de relatie (kijkt naar de ander) en de ander gefocust is op zijn eigen groei (kijkt naar zichzelf), creëren jullie een dynamiek waarin je fouten kunt vergeven, ervan kunt leren en een sterkere band kunt opbouwen.

Het artikel concludeert dat hoe we informatie waarnemen belangrijker is dan we dachten. De structuur van wat we weten — en wie wat weet — bepaalt of we eindigen in een cyclus van verraad of een stabiele cyclus van samenwerking. De "gemengde visie" creëert een natuurlijk ritme van vertrouwen, verraad, straf en vergeving dat het echte menselijke gedrag weerspiegelt, waardoor samenwerking kan overleven, zelfs wanneer dat moeilijk is.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →