A battery of image classification challenges reveals shared and distinct object categorization behavior across monkeys, humans, and deep networks

Die Studie zeigt, dass Affen ohne Sprachkenntnisse komplexe Bildklassifizierungsaufgaben erlernen und dabei Fehlermuster aufweisen, die menschlichen Urteilen ähneln, während ihre Leistung stärker mit sprachunabhängigen visuellen Deep-Learning-Modellen korreliert als die von Menschen.

Ursprüngliche Autoren: Zhang, H., Zheng, Z., Hu, J., Wang, Q., Xu, M., Zhou, Z., Li, Z., Okazawa, G.

Veröffentlicht 2026-04-17
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre
⚕️

Dies ist eine KI-generierte Erklärung eines Preprints, das nicht peer-reviewed wurde. Dies ist kein medizinischer Rat. Treffen Sie keine Gesundheitsentscheidungen auf Grundlage dieses Inhalts. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

Das große Bild-Raten-Spiel: Affen, Menschen und Computer im Vergleich

Stellen Sie sich vor, Sie spielen ein Spiel, bei dem Sie Bilder von Gegenständen sehen müssen und schnell entscheiden sollen: „Ist das lebendig oder tot?", „Ist das natürlich oder künstlich?" oder „Ist das ein Säugetier oder ein Reptil?".

Wissenschaftler haben dieses Spiel mit drei Gruppen gespielt:

  1. Menschen (die das natürlich sofort verstehen).
  2. Rhesusaffen (die keine Sprache haben und nur mit Bildern lernen).
  3. Künstliche Intelligenz (KI) – also Computer-Programme, die wie menschliche Augen funktionieren.

Das Ziel war herauszufinden: Wie gut können Affen abstrakte Kategorien verstehen, ohne dass ihnen jemand etwas erklärt? Und wie ähnlich sind sie dabei uns Menschen oder einer reinen Bild-KI?


1. Das Spiel: Der „Zieh-und-Sortiere"-Trick

Normalerweise ist es für Affen schwer, komplexe Regeln zu lernen. Die Forscher haben aber einen cleveren Trick angewendet:

  • Der Affe sieht ein Bild (z. B. einen Hund).
  • Er muss das Bild mit dem Finger auf dem Touchscreen greifen und in eine der zwei Boxen ziehen.
  • Eine Box bedeutet „Lebendig", die andere „Totes Ding".
  • Wenn er richtig liegt, gibt es Saft als Belohnung.

Die Analogie: Stellen Sie sich vor, Sie lernen, Wäsche zu sortieren. Am Anfang sortieren Sie vielleicht nur nach Farbe. Aber nach ein paar Tagen verstehen Sie plötzlich das Prinzip: „Alles, was man anzieht, kommt in den Korb links, alles andere rechts." Die Affen haben genau das geschafft: Sie haben die Regel verstanden, nicht nur das einzelne Bild auswendig gelernt.

2. Was die Affen konnten (und was nicht)

Die Affen waren überraschend schlau!

  • Leicht: Sie lernten schnell, lebende Dinge von toten zu unterscheiden, oder natürliche Dinge (wie Bäume) von künstlichen (wie Autos). Sie konnten das auch auf neue Bilder anwenden, die sie noch nie gesehen hatten. Das ist, als würden Sie nach dem Lernen der Regel „Hunde" auch sofort erkennen, dass ein neuer Hundebild auch ein Hund ist, auch wenn er anders aussieht.
  • Schwer: Bei sehr abstrakten Regeln scheiterten sie. Zum Beispiel: „Ist dieses Objekt mit Feuer oder mit Wasser verbunden?" (z. B. ein Feuerlöscher vs. eine Badewanne). Oder: „Ist das ein westliches oder ein östliches Objekt?" (z. B. ein Kronkorken vs. ein chinesischer Laternen).
    • Warum? Diese Konzepte erfordern kulturelles Wissen oder Sprache. Ein Affe sieht einen Feuerlöscher und denkt: „Roter Zylinder". Er weiß nicht, dass er mit Feuer zu tun hat, es sei denn, er hat es schon mal gesehen.

3. Der Vergleich: Affe vs. Mensch vs. KI

Hier wird es spannend. Die Forscher haben die Ergebnisse mit Computer-Modellen verglichen:

  • Die „reine" Bild-KI: Diese Modelle wurden nur mit Bildern trainiert, ohne Text oder Sprache. Sie sehen ein Bild und analysieren Formen, Farben und Texturen.
    • Ergebnis: Die Affen verhielten sich fast genau wie diese KI! Wenn die KI Schwierigkeiten hatte, einen Gegenstand zu erkennen (weil er z. B. nur als Umriss gezeichnet war), hatten die Affen auch Probleme.
  • Die „sprachbewusste" KI: Diese Modelle (wie CLIP) wurden mit Bildern und Texten trainiert. Sie wissen also, dass ein „Feuerlöscher" mit „Feuer" zu tun hat, weil sie das Wort gelesen haben.
    • Ergebnis: Die Menschen verhielten sich wie diese KI. Wir nutzen unser Sprachwissen, um auch abstrakte Kategorien zu verstehen.

Die Metapher:

  • Der Affen ist wie ein sehr talentierter Maler, der nur mit den Augen lernt. Er sieht die Welt so, wie sie aussieht.
  • Der Mensch ist wie ein Maler, der auch ein Wörterbuch liest. Er sieht nicht nur die Form, sondern weiß auch, was das Ding ist und wozu es dient.
  • Die reine KI ist wie der Affe (nur digital).
  • Die sprachbewusste KI ist wie der Mensch (digital).

4. Die große Erkenntnis

Die Studie zeigt uns etwas Wichtiges über unser Gehirn:
Viele Dinge, die wir für „intelligentes Denken" halten (wie zu erkennen, was lebendig ist), basieren eigentlich nur auf visuellen Mustern. Unsere Augen und unser Gehirn können diese Muster ohne Sprache erkennen.

Affen (und unsere KI-Modelle ohne Sprache) sind also in der Lage, die Welt visuell zu verstehen, fast so gut wie wir. Aber sobald es um Dinge geht, die wir wissen müssen (weil wir sie gelernt haben, z. B. kulturelle Symbole), brauchen wir die Sprache. Ohne Sprache bleiben wir bei den Bildern stehen.

Zusammenfassend:
Die Affen haben bewiesen, dass man keine Sprache braucht, um die Welt visuell zu kategorisieren. Sie sind Meister der visuellen Mustererkennung, genau wie moderne Bild-KIs. Wir Menschen hingegen nutzen unsere Sprache als „Super-Brille", um noch tiefer in die Bedeutung der Dinge einzudringen.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →