Analysis of individual identification and age-class classification of wild female macaque vocalizations without pitch- and formant-based acoustic parameter measurements

Die Studie zeigt, dass Mel-Spektrogramme in Kombination mit klassischen maschinellen Lernalgorithmen wie Random Forest und Support Vector Machine auch bei kleinen Datensätzen wilder japanischer Makaken eine hohe Genauigkeit sowohl für die individuelle Identifizierung als auch für die Altersklassifizierung weiblicher Tiere erreichen.

Kimpara, R., Kakuta, F., Koda, H., Matsuda, I., Hanya, G.

Veröffentlicht 2026-02-19
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre
⚕️

Dies ist eine KI-generierte Erklärung eines Preprints, das nicht peer-reviewed wurde. Dies ist kein medizinischer Rat. Treffen Sie keine Gesundheitsentscheidungen auf Grundlage dieses Inhalts. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

🐒 Die akustischen Fingerabdrücke der wilden Makaken

Stellen Sie sich vor, Sie gehen durch einen dichten Wald und hören ein "Koo-Koo"-Geräusch. Können Sie sofort sagen, wer da ruft? Ist es die alte, weise Oma des Rudels oder die junge, energiegeladene Mutter? Und könnten Sie sogar den Namen des einzelnen Affen nennen, ohne ihn zu sehen?

Genau das wollten die Forscher in dieser Studie herausfinden. Sie haben eine neue Methode entwickelt, um wilde Japanische Makaken nur anhand ihrer Stimmen zu identifizieren – ganz ohne komplizierte Messungen von Tonhöhe oder Resonanz.

1. Das Problem: Der "Handwerker" vs. der "Künstliche Intelligenz"-Chef

Früher waren Wissenschaftler wie Handwerker, die jeden einzelnen Ton eines Affen mit dem Lineal und dem Messschieber vermessen haben (z. B. "Wie hoch ist die Stimme? Wie lang ist der Ruf?"). Das war mühsam und funktionierte nicht immer gut, besonders wenn man nur wenige Daten hatte.

Heute gibt es Künstliche Intelligenz (KI), die wie ein genialer Chef ist, der nicht jedes Detail einzeln misst, sondern das ganze Bild betrachtet. Aber diese KI braucht normalerweise riesige Datenberge (wie einen ganzen Ozean an Aufnahmen), um zu lernen. In der Wildnis hat man aber oft nur einen kleinen Teich an Daten.

Die Frage der Studie: Kann diese "KI-Methode" auch mit einem kleinen Teich an Daten zurechtkommen?

2. Die Lösung: Der "Mel-Spektrogramm"-Fingerabdruck

Die Forscher haben eine Technik namens Mel-Spektrogramm verwendet.

  • Die Analogie: Stellen Sie sich vor, Sie werfen einen Stein in einen Teich. Die Wellen, die entstehen, sind einzigartig für diesen Stein und diesen Teich. Ein Mel-Spektrogramm ist wie ein Fotograf, der diese Wellenmuster einfriert. Es wandelt den Schall in ein farbiges Bild um, das die Struktur der Stimme zeigt, ohne dass man einzelne Zahlen messen muss.
  • Die Forscher haben 651 dieser "Stimmen-Fotos" von sechs wilden Weibchen auf der Insel Yakushima gemacht.

3. Die zwei Aufgaben: Wer ist wer? und Wer ist alt?

Die KI bekam zwei Aufgaben gestellt:

  • Aufgabe A: Das "Wer ist das?"-Spiel (Individuelle Identifizierung)
    Die KI musste raten: "Ist das Kapa, Rine oder Sasa?"

    • Das Ergebnis: Die KI war zu 81–82 % richtig. Das ist wie bei einem Quiz, bei dem man fast immer die richtige Antwort findet, auch wenn man nicht jeden Affen persönlich kennt.
    • Interessant: Manche Affen (wie "Sasa") hatten sehr eindeutige Stimmen, die leicht zu erkennen waren. Andere (wie "Kapa") klangen manchmal so ähnlich wie ihre Nachbarn, dass die KI verwirrt war.
  • Aufgabe B: Das "Jung vs. Alt"-Spiel (Altersklassifizierung)
    Die KI musste unterscheiden zwischen jungen Affen (unter 10 Jahre) und alten Affen (über 20 Jahre).

    • Das Ergebnis: Hier war die KI noch besser! Sie lag bei 91–93 % richtig.
    • Warum? Die Forscher vermuten, dass alte Affen eine "raue" oder "kratzige" Stimme haben, ähnlich wie ein alter Baumstamm im Vergleich zu einem jungen Zweig. Die KI hat diese feinen, rauen Muster im "Fingerabdruck-Bild" sofort erkannt, auch ohne zu wissen, was "Rauheit" eigentlich ist.

4. Warum ist das wichtig?

Stellen Sie sich vor, Sie sind ein Förster, der wissen will, wie viele Affen in einem Wald leben. Früher musste man sie fangen, markieren und wieder freilassen (sehr stressig für die Tiere).
Mit dieser Methode kann man einfach ein Mikrofon aufstellen, die Stimmen aufnehmen und die KI sagen lassen: "Aha, das war wieder die alte Sazae, und das ist die junge Rine."

  • Vorteil: Es ist nicht-invasiv (die Affen werden nicht gestört).
  • Vorteil: Es funktioniert auch nachts, wenn man die Affen nicht sehen kann.

Fazit

Die Studie zeigt, dass man auch mit wenigen Daten aus der Wildnis sehr gut lernen kann, wer wer ist und wie alt jemand ist, wenn man die richtigen "Brillen" (die KI und die Spektrogramme) aufsetzt. Es ist, als würde man einem Computer beibringen, die Stimmen der Natur zu lesen, ohne dabei die Sprache der Wissenschaftler (die mathematischen Formeln) zu benutzen.

Kurz gesagt: Die KI kann jetzt die "Stimmen-Fingerabdrücke" wilder Affen lesen und dabei besser sein als wir Menschen, wenn es darum geht, alte von jungen Tieren zu unterscheiden.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →