Evolution of cooperation with Q-learning: the impact of information perception

Diese Studie verwendet Q-Learning in einem Gefangenendilemma-Rahmen, um zu demonstrieren, dass variierende Informationswahrnehmestrukturen, insbesondere asymmetrische Information, die komplexen evolutionären Dynamiken und das Entstehen von Kooperation entscheidend prägen und damit neue Einblicke in das menschliche Kooperationsverhalten bieten.

Ursprüngliche Autoren: Guozhong Zheng, Zhenwei Ding, Jiqiang Zhang, Shengfeng Deng, Weiran Cai, Li Chen

Veröffentlicht 2026-02-04
📖 5 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Guozhong Zheng, Zhenwei Ding, Jiqiang Zhang, Shengfeng Deng, Weiran Cai, Li Chen

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ⚕️ Dies ist eine KI-generierte Erklärung eines Preprints, das nicht peer-reviewed wurde. Dies ist kein medizinischer Rat. Treffen Sie keine Gesundheitsentscheidungen auf Grundlage dieses Inhalts. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie und ein Freund spielen ein Spiel, bei dem Sie beide entscheiden müssen, ob Sie nett sind (Kooperieren) oder nur auf sich selbst achten und auf Kosten des anderen schauen (Defektieren/Verraten). Wenn Sie beide nett sind, gewinnen Sie beide ein wenig. Wenn Sie beide nur auf sich selbst achten, verlieren Sie beide ein bisschen. Aber wenn der eine nett ist und der andere nicht, wird der „nette“ Teilgenossen regelrecht zerquetscht, und der „egoistische“ Teil erhält eine riesige Belohnung.

Normalerweise gehen Wissenschaftler, die dieses Spiel untersuchen, davon aus, dass beide Spieler die Welt exakt gleich sehen. Beide wissen, was der andere beim letzten Mal getan hat, oder beide wissen nur, was sie selbst getan haben.

Diese Arbeit stellt eine andere Frage: Was passiert, wenn die zwei Spieler die Welt unterschiedlich sehen? Was, wenn ein Spieler die Züge seines Freundes beobachtet, während der andere Spieler nur seine eigenen beobachtet?

Die Forscher verwendeten einen Computer-Algorithmus namens „Q-Learning“ (denken Sie an einen digitalen Schüler, der durch Versuch und Irrtum lernt und eine mentale Punktetabelle führt, um zu sehen, was funktioniert und was nicht), um dies zu simulieren. Sie testeten drei verschiedene „Sichtweisen“-Aufbauten:

  1. Das „Du und Du“-Team (Beobachten des Anderen): Beide Spieler beobachten nur, was der andere tut.
  2. Das „Ich und Ich“-Team (Beobachten des Selbst): Beide Spieler beobachten nur, was sie selbst tun.
  3. Das „Du und Ich“-Team (Asymmetrisch): Ein Spieler beobachtet den anderen, während der andere Spieler nur sich selbst beobachtet.

Hier ist, was sie herausgefunden haben, einfach erklärt:

1. Das „Du und Du“-Team (Den Anderen beobachten)

Wenn beide Spieler nur darauf fokussiert sind, was der andere tut, ist das Spiel ein Chaos. Es ist wie zwei Menschen, die versuchen zu tanzen, während sie nur auf die Füße des jeweils anderen starren; sie finden keinen Rhythmus. Sie wechseln ständig zwischen Nettsein und Gemeinsein, aber sie finden nie zu einem stabilen Muster der Kooperation. Schließlich geben sie meistens auf und schauen nur noch auf sich selbst.

2. Das „Ich und Ich“-Team (Sich selbst beobachten)

Wenn beide Spieler sich nur auf ihr eigenes vergangenes Handeln konzentrieren, ist das Ganze stabiler, aber sie bleiben leicht stecken.

  • Das Gute: Wenn die Versuchung, gemein zu sein, gering ist, können sie in einer „Glücksspirale“ stecken bleiben, in der sie beide für immer nett sind.
  • Das Schlechte: Wenn die Versuchung, gemein zu sein, hoch ist, können sie in einer „Traurigkeitsschleife“ stecken bleiben, in der sie beide für immer gemein sind.
  • Der Haken: Sobald sie sich für eine Schleife entschieden haben (Glück oder Traurigkeit), ist es sehr schwer, den Kurs zu ändern. Es ist wie ein Zug, der bereits aus dem Bahnhof fährt; er fährt entweder zum Ziel „Freundschaft“ oder „Verrat“, und es ist sehr schwer, einmal die Gleise zu wechseln.

3. Das „Du und Ich“-Team (Die gemischte Sichtweise)

Hier geschieht die Magie. Wenn ein Spieler den anderen beobachtet und der andere sich selbst beobachtet, wird das Spiel dynamisch und überraschend effektiv.

Die Forscher entdeckten eine komplexe, dreiteilige Geschichte, die sich im Laufe der Zeit abspielt:

  • Phase 1: Die Flitterwochen. Die beiden Spieler merken, dass es funktioniert, nett zu sein. Sie beginnen zu kooperieren.
  • Phase 2: Die Trennung. Ein Spieler (derjenige, der den anderen beobachtet) wird gierig. Er erkennt, dass er eine größere Belohnung bekommt, wenn er gemein ist, während der andere noch nett ist. Er nutzt seinen Partner aus. Der nette Partner, verwirrt, aber bemüht, gut zu sein, bleibt eine Zeit lang noch nett (Toleranz), wird aber schließlich verletzt.
  • Phase 3: Der Wiederaufbau. Der nette Partner platzt schließlich heraus. Er beschließt, ebenfalls gemein zu sein, nur um dem gierigen Partner eine Lektion zu erteilen. Diese „Bestrafung“ schadet dem gierigen Spieler, der dann realisiert: „Hey, gemein zu sein funktioniert nicht mehr.“ Der gierige Spieler wechselt zurück zum Nettsein. Der Zyklus setzt sich zurück, und sie bauen eine stärkere, widerstandsfähigere Kooperation auf als zuvor.

Das große Fazit

Die überraschendste Erkenntnis ist, dass dieser gemischte Sichtweisen-Aufbau (Asymmetrisch) tatsächlich zu einer schnelleren und stärkeren Kooperation führt als die Aufbauten, bei denen alle die Welt gleich sehen.

Denken Sie an eine Beziehung:

  • Wenn Sie und Ihr Partner beide nur auf Ihre eigenen Gefühle schauen, könnten Sie in einer Routine feststecken.
  • Wenn Sie beide nur einander anstarren, könnten Sie ängstlich und instabil werden.
  • Aber wenn einer von Ihnen auf die Beziehung fokussiert ist (den Anderen beobachtet) und der andere auf das eigene Wachstum (sich selbst beobachtet), erschaffen Sie ein dynamisches Umfeld, in dem man Fehler verzeihen, aus ihnen lernen und eine stärkere Bindung aufbauen kann.

Die Arbeit kommt zu dem Schluss, dass wie wir Informationen wahrnehmen, wichtiger ist, als wir dachten. Die Struktur dessen, was wir wissen – und wer was weiß – entscheidet darüber, ob wir in einem Zyklus des Verrats oder in einem stabilen Zyklus der Kooperation enden. Die „gemischte Sichtweise“ schafft einen natürlichen Rhythmus aus Vertrauen, Verrat, Bestrafung und Vergebung, der das reale menschliche Verhalten widerspiegelt und es ermöglicht, dass Kooperation selbst dann überlebt, wenn es schwierig wird.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →