Animal behavioral analysis and neural encoding with transformer-based self-supervised pretraining

Die Studie stellt BEAST vor, ein skalierbares Framework auf Basis von Self-Supervised Learning und Transformern, das unlabeled Videodaten nutzt, um die Verhaltensanalyse und neuronale Kodierung bei verschiedenen Tierarten auch bei knappen gelabelten Daten zu verbessern.

Yanchen Wang, Han Yu, Ari Blau, Yizi Zhang, The International Brain Laboratory, Liam Paninski, Cole Hurwitz, Matt Whiteway

Veröffentlicht 2026-03-02
📖 5 Min. Lesezeit🧠 Tiefgang
⚕️

Dies ist eine KI-generierte Erklärung eines Preprints, das nicht peer-reviewed wurde. Dies ist kein medizinischer Rat. Treffen Sie keine Gesundheitsentscheidungen auf Grundlage dieses Inhalts. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

🦁 BEAST: Der "Super-Lernende" für Tierverhalten

Stell dir vor, du bist ein Wissenschaftler, der versucht zu verstehen, was in den Köpfen von Tieren vorgeht. Du hast eine Kamera, die ein Tier filmt, und du willst wissen: Warum bewegt es sich so? Was denkt es gerade?

Das Problem bisher war: Um das zu verstehen, mussten Forscher stundenlang Videos anschauen und jeden einzelnen Pfotenabdruck, jedes Ohrenzucken und jedes Schnuppern von Hand markieren. Das ist wie wenn du versuchst, ein Buch zu lesen, aber du musst jedes einzelne Wort erst selbst schreiben, bevor du den Satz verstehen kannst. Es ist mühsam, teuer und dauert ewig.

BEAST (eine Abkürzung für BEhavioral Analysis via Self-supervised pretraining of Transformers) ist wie ein genialer neuer Assistent, der dieses Problem löst.


🧩 Die drei großen Tricks von BEAST

BEAST funktioniert wie ein Schüler, der lernt, indem er einfach nur zuschaut, ohne dass ihm jemand die Antworten gibt. Hier sind die drei Hauptaufgaben, die er meistert:

1. Die "Gedanken-Übersetzer" (Neural Encoding)

Stell dir vor, du hast einen Draht zum Gehirn des Tieres, der dir sagt, welche Nervenzellen gerade feuern. Aber du hast keine Ahnung, was das Tier gerade tut.

  • Der alte Weg: Forscher mussten erst mühsam die Pfoten markieren, um zu erraten, was das Gehirn denkt.
  • Der BEAST-Weg: BEAST schaut sich das Video an und lernt: "Aha! Wenn das Tier so den Kopf neigt, feuern genau diese Nervenzellen." Er übersetzt das Bild direkt in Gedanken, ohne dass jemand die Pfoten markieren muss. Er ist wie ein Dolmetscher, der die Körpersprache direkt in neuronale Signale übersetzt.

2. Die "Unsichtbaren Gelenke" (Pose Estimation)

Normalerweise muss man einem Computer sagen: "Das ist die Nase, das ist der linke Pfotenballen." Das dauert ewig.

  • Die Analogie: Stell dir vor, du willst einem Kind beibringen, wie ein Mensch aussieht. Du könntest ihm 100 Bilder zeigen und sagen: "Hier ist die Nase." Oder du lässt es einfach 10.000 Bilder von Menschen ansehen, ohne etwas zu sagen. Das Kind lernt von selbst, wo Nase, Augen und Arme sind.
  • BEAST macht genau das: Er schaut sich riesige Mengen an unmarkierten Videos an und lernt von selbst, wo die Körperteile sind. Wenn er dann nur noch ein paar wenige Beispiele bekommt (statt Tausende), kann er die Gelenke des Tieres perfekt verfolgen. Er ist wie ein Schauspiellehrer, der nur ein paar Proben braucht, um die Rolle perfekt zu spielen.

3. Die "Handlungs-Regisseur" (Action Segmentation)

Ein Video ist nur eine Aneinanderreihung von Bildern. Aber wann fängt das Putzen an? Wann fängt das Kämpfen an?

  • Der alte Weg: Man markiert manuell: "Sekunde 10 bis 15: Putzen."
  • Der BEAST-Weg: BEAST hat so viel gesehen, dass er die Muster kennt. Er kann das Video abspielen und sofort sagen: "Jetzt putzt es sich, jetzt rennt es, jetzt schläft es." Er schneidet das Video automatisch in sinnvolle Szenen, wie ein Filmregisseur, der den Schnitt schon im Kopf hat.

🎓 Wie lernt BEAST? (Die "Schule" ohne Lehrer)

BEAST nutzt zwei spezielle Lernmethoden, die wie ein cleveres Spiel funktionieren:

  1. Das "Puzzle-Spiel" (Masked Autoencoding):
    Stell dir vor, du zeigst BEAST ein Foto von einer Maus, aber du klebst ein großes Stück Klebeband über einen Teil des Bildes. BEAST muss raten: "Was ist unter dem Klebeband?" Er muss das Bild rekonstruieren. Dadurch lernt er, wie eine Maus aussieht, wie Fell aussieht und wie sich Schatten bewegen.

  2. Das "Gedächtnis-Spiel" (Temporal Contrastive Learning):
    Hier zeigt BEAST zwei Bilder: Eines, das gerade passiert ist, und eines, das eine Sekunde später passiert ist. Er muss lernen: "Diese beiden Bilder gehören zusammen, weil sie von derselben Handlung kommen." Aber wenn er ein Bild von gestern zeigt, muss er sagen: "Das gehört nicht hierher!" So lernt er, wie sich Bewegungen über die Zeit entwickeln.

Der Clou: BEAST braucht dafür keine menschlichen Lehrer. Er lernt aus den Rohdaten, die die Labore ohnehin schon haben (die unmarkierten Videos).


🚀 Warum ist das so wichtig?

Bisher mussten Labore Jahre damit verbringen, Daten zu sammeln und zu markieren, bevor sie überhaupt anfangen konnten, die Wissenschaft zu betreiben.

  • BEAST ist wie ein Turbo: Er nimmt die ungenutzten Videos, lernt daraus alles über das Tier und ist dann sofort einsatzbereit.
  • Er ist universell: Ob es eine Maus, ein Fisch oder ein Affe ist – BEAST passt sich an.
  • Er spart Zeit: Statt Jahre zu markieren, können Forscher jetzt in Wochen zu Ergebnissen kommen.

Zusammenfassung in einem Satz

BEAST ist ein künstlicher Intelligenz-Assistent, der sich durch bloßes Zusehen auf unmarkierten Videos so viel über Tierbewegungen aneignet, dass er danach sofort verstehen kann, was Tiere denken, wo ihre Gelenke sind und was sie gerade tun – ganz ohne dass Menschen stundenlang mühsam Punkte auf Bilder malen müssen.

Es ist, als würde man einem Roboter beibringen, die Welt zu verstehen, indem man ihn einfach in den Zoo schickt, statt ihm ein Lehrbuch zu geben. 🦁🎥🧠