The macaque IT cortex but not current artificial vision networks encode object position in perceptually aligned coordinates

Die Studie zeigt, dass der makakeninferiore Temporallappen (IT) Objektpositionen in wahrnehmungsgerechten Koordinaten kodiert, die durch Bewegungsnachbilder beeinflusst werden, während aktuelle künstliche Sehsysteme diese historienabhängige räumliche Kodierung nicht aufweisen.

Elizaveta Yakubovskaya, Hamidreza Ramezanpour, Matteo Dunnhofer, Kohitij Kar

Veröffentlicht Fri, 13 Ma
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Studie, als würde man sie einem Freund beim Kaffee erzählen – auf Deutsch, mit ein paar kreativen Vergleichen.

Das große Rätsel: Wo ist das Ding wirklich?

Stell dir vor, du siehst einen Apfel auf einem Tisch. Dein Gehirn muss zwei Dinge sofort wissen:

  1. Was ist das? (Ein Apfel).
  2. Wo ist es? (Links, rechts, oben, unten).

Lange Zeit dachten Wissenschaftler, das Gehirn habe dafür zwei getrennte Abteilungen:

  • Die eine Abteilung (der „Was"-Weg) kümmert sich nur um das Erkennen von Objekten.
  • Die andere Abteilung (der „Wo"-Weg) kümmert sich nur um den Ort.

Aber diese neue Studie zeigt: Das ist nicht so einfach getrennt. Die Abteilung für das „Was" (genannt IT-Kortex bei Affen) weiß plötzlich auch sehr genau, wo etwas ist – und zwar so genau, wie wir Menschen es fühlen, nicht nur so, wie es auf dem Foto aussieht.

Der Trick: Die „Bewegungs-Illusion"

Um das herauszufinden, nutzten die Forscher einen alten Trick aus der Welt der Illusionen, den man Bewegungsnachbild (Motion Aftereffect) nennt.

Der Experiment im Kopf:

  1. Stell dir vor, du starrst 30 Sekunden lang auf einen riesigen, sich nach rechts bewegenden Wasserfall.
  2. Dann schaust du auf einen stillstehenden Stein.
  3. Das Wunder: Der Stein scheint sich plötzlich nach links zu bewegen!

Das ist eine Täuschung. Der Stein hat sich nicht bewegt. Aber dein Gehirn hat sich an die Bewegung gewöhnt und ist jetzt „überempfindlich" für die Gegenrichtung.

Die Forscher machten das Gleiche, nur mit Bildern von Tieren und Gegenständen. Sie ließen Affen und Menschen erst auf bewegende Streifen schauen und dann auf ein statisches Bild.

Was fanden sie heraus?

1. Das Affen-Gehirn (IT-Kortex) ist wie ein kluger Künstler

Als die Forscher die Gehirne der Affen untersuchten, sahen sie etwas Erstaunliches:
Die Nervenzellen, die das Bild des Objekts verarbeiten, änderten ihre Meldung. Sie sagten dem Gehirn: „Das Objekt ist nicht mehr genau dort, wo es auf dem Pixelbild ist, sondern ein bisschen weiter nach links!"

Die Analogie: Stell dir vor, du hast einen sehr präzisen GPS-Empfänger. Normalerweise zeigt er dir den exakten Ort an. Aber nach der Illusion sagt er plötzlich: „Hey, das Auto ist nicht genau dort, wo die Karte es zeigt, sondern ein Stück weiter links."
Das ist wichtig, weil das Bild auf dem Auge (die Pixel) sich gar nicht geändert hat. Nur die Wahrnehmung hat sich geändert. Das Gehirn des Affen spiegelt also genau das wider, was der Mensch sieht, nicht nur das, was auf der Kamera ist.

2. Der Computer (Künstliche Intelligenz) ist wie ein starrer Roboter

Dann testeten die Forscher die besten künstlichen Intelligenzen (KI), die wir heute haben (die gleichen, die Autos erkennen oder Bilder analysieren).

Das Ergebnis: Die KI war völlig verwirrt.

  • Sie sah das Bild.
  • Sie wusste, wo das Objekt war.
  • Aber als die Illusion stattfand (die bewegten Streifen vorher), veränderte sich ihre Antwort nicht.

Die KI sagte immer noch: „Das Objekt ist genau dort, wo die Pixel es zeigen." Sie merkte die Illusion gar nicht.

Die Analogie: Stell dir vor, du hast einen Roboter, der eine Landkarte liest. Wenn du ihm sagst: „Der Berg sieht aus, als würde er wandern!", schaut der Roboter auf seine Karte und sagt: „Nein, laut meiner Karte ist der Berg immer noch genau dort." Er versteht nicht, dass sich die Wahrnehmung geändert hat, weil er nur die nackten Daten (Pixel) liest und keine „Gefühle" oder Anpassungen im System hat.

Warum ist das wichtig?

Die Studie zeigt uns drei Dinge:

  1. Das Gehirn ist dynamisch: Unser visuelles System ist nicht starr. Es passt sich ständig an die Umgebung an. Wenn wir uns an Bewegung gewöhnen, verändert sich sogar die Art und Weise, wie wir den Ort von Dingen berechnen.
  2. KI hinkt hinterher: Unsere besten Computer-Modelle sind super darin, Dinge zu erkennen, aber sie verstehen nicht, wie unser Gehirn mit Täuschungen und Illusionen umgeht. Sie fehlen der „magische" Teil, der die Wahrnehmung anpasst.
  3. Die Zukunft der KI: Um wirklich menschenähnliche KI zu bauen, müssen wir ihr beibringen, nicht nur Bilder zu sehen, sondern auch zu fühlen, wie sich diese Bilder durch Bewegung und Zeit verändern. Wir müssen ihr beibringen, dass „Wo" manchmal davon abhängt, was man gerade vorher gesehen hat.

Zusammenfassung in einem Satz

Unser Gehirn (und das von Affen) ist wie ein lebendiger Künstler, der die Welt anpasst, wenn sich die Umstände ändern, während unsere aktuellen Computer wie starre Fotografen sind, die nur das sehen, was direkt vor der Linse liegt, und Illusionen nicht verstehen.