Detection and Classification of Cetacean Echolocation Clicks using Image-based Object Detection Methods applied to Advanced Wavelet-based Transformations

Diese Arbeit demonstriert die Wirksamkeit des auf Wavelet-Transformationen und Bilderkennung basierenden Deep-Learning-Modells CLICK-SPOT zur automatisierten Detektion und Klassifizierung von Echolokationsklicks bei Norwegischen Schwertwalen, um die zeitaufwändige manuelle Analyse von Bioakustikdaten zu überwinden.

Christopher Hauer

Veröffentlicht 2026-02-23
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Wer macht das Geräusch?

Stell dir vor, du bist in einem riesigen, dunklen Schwimmbad. Über dir schwimmen Killerwale. Sie kommunizieren nicht nur mit Gesang, sondern nutzen auch ein biologisches Sonar: Sie stoßen kurze, laute Klicks aus, wie ein Taschenlampenblitz im Dunkeln, um zu sehen, wo ihre Beute ist oder um sich zu orientieren.

Das Problem für die Forscher ist: Das Wasser ist laut. Es gibt Wellen, andere Tiere, Schiffe und vor allem Echos. Wenn ein Wal einen Klick macht, prallt dieser gegen den Meeresboden oder die Wasseroberfläche und kommt als Echo zurück.

Für einen menschlichen Forscher ist es wie ein riesiges Puzzle, bei dem man tausende von Klicks und Echos auf einer Audio-Spur finden muss.

  • Die Aufgabe: Einen Klick vom Echo unterscheiden.
  • Das Problem: Ein Klick und sein Echo sehen sich oft extrem ähnlich. Ein Echo ist wie ein Spiegelbild des Klicks. Manchmal ist das Echo sogar lauter als der Original-Klick, weil es an einer bestimmten Stelle im Wasser "aufgefangen" wird.
  • Der Aufwand: Ein Experte braucht etwa eine Stunde, um nur eine Sekunde an Audiomaterial korrekt zu markieren. Das ist unmöglich, wenn man Tausende von Stunden aufnehmen will.

Die Lösung: Ein digitaler Detektiv mit super-Augen

Christopher Hauer hat einen automatischen Helfer entwickelt, den er CLICK-SPOT nennt. Stell dir CLICK-SPOT wie einen hochintelligenten Detektiv vor, der nicht mit dem Ohr, sondern mit "Augen" arbeitet.

Hier ist, wie er funktioniert, Schritt für Schritt:

1. Die Brille: Vom Gehör zum Bild

Computer verstehen Audio-Wellen oft schlecht, wenn sie so komplex sind. Also verwandelt CLICK-SPOT den Sound in Bilder.

  • Das normale Bild (Spektrogramm): Das ist wie ein Musik-Notenblatt, das zeigt, welche Töne wann laut sind. Aber das hat einen Nachteil: Es ist wie ein unscharfes Foto. Entweder sieht man den Zeitpunkt genau oder die Höhe des Tons, aber nicht beides gleichzeitig (wie bei einer unscharfen Kamera).
  • Die Super-Brille (Wavelet-Transformation): Hauer nutzt eine spezielle Technik, die wie eine Zoom-Brille funktioniert. Bei hohen Tönen (den schnellen Klicks) zoomt sie stark in die Zeit hinein, damit man den genauen Moment sieht. Bei tiefen Tönen zoomt sie eher auf die Frequenz.
  • Das Ergebnis: Der Computer sieht den Klick nicht als Welle, sondern als ein scharfes, dreidimensionales "Kegel"-Muster auf einem Bild. Das macht es für den Computer viel einfacher, den Klick vom Echo zu unterscheiden.

2. Der Sucher: YOLO (You Only Look Once)

Um diese Klicks-Bilder zu finden, nutzt er ein System namens YOLO.

  • Die Analogie: Stell dir vor, du hast ein riesiges Foto von einem Wald voller Vögel. YOLO ist wie ein sehr schneller Vogelbeobachter, der das Bild in kleine Kacheln teilt. In jeder Kachel schaut er sofort: "Ist da ein Vogel? Ja? Dann male ich einen Kasten drumherum."
  • In diesem Fall sucht YOLO nach den Klick-Kegeln auf den Bildern. Er markiert sie mit einem grünen Kasten.
  • Das Problem: Manchmal markiert er zu große Kästen, die sowohl den Klick als auch das Echo umfassen, oder er macht mehrere Kästen für einen einzigen Klick.

3. Der Feinschliff: Der "Gradienten-Messer" (FOD)

Um die ungenauen Kästen zu korrigieren, kommt ein zweiter Helfer ins Spiel, der FOD (First Order Detection).

  • Die Analogie: Stell dir vor, du hast einen Berg (den Klick) und ein Tal (das Echo). Der FOD ist wie ein sehr empfindlicher Höhenmesser, der genau den höchsten Punkt des Berges und den tiefsten Punkt des Tals findet.
  • Er schneidet die großen, ungenauen Kästen von YOLO auf und teilt sie genau dort auf, wo der Klick aufhört und das Echo beginnt.

4. Der Kontext-Experte: Der Wald der Entscheidungsbäume (Random Forest)

Jetzt hat der Computer zwar viele Klicks und Echos gefunden, aber er weiß immer noch nicht sicher: "Ist das hier der Original-Klick oder nur das Echo?"

  • Die Analogie: Ein einzelner Klick ist wie ein einzelnes Wort in einer Sprache. Man weiß nicht, was es bedeutet, ohne den Satz zu hören.
  • Der Random Forest ist wie ein Team von Experten, die sich die Umgebung ansehen. Sie fragen sich:
    • "Wie weit ist der nächste Klick entfernt?" (Killerwale machen Klicks in einem bestimmten Rhythmus).
    • "Wie stark ist das Echo im Vergleich zum Klick?"
    • "Wie ist die Phase (die Richtung der Welle)?"
  • Basierend auf diesen Mustern entscheidet der Algorithmus: "Aha, das hier ist der Klick, das da ist das Echo."

Das Ergebnis: Ein Game-Changer

Vor CLICK-SPOT mussten Menschen stundenlang arbeiten.

  • Der alte Weg (PAMGuard): Ein einfacher Zähler, der alles zählt, was laut ist. Er macht viele Fehler (wie ein lauter Hund, der bei jedem Blattgeräusch bellt).
  • Der neue Weg (CLICK-SPOT): Er findet fast alle Klicks (zu 96 % korrekt) und unterscheidet sie sehr gut von Echos.

Aber: Der Computer ist noch nicht schnell genug für den "Live-Einsatz" im Meer. Er braucht 25 Minuten, um 1 Minute Audio zu analysieren. Das ist wie ein sehr langsamer Übersetzer, der aber eine perfekte Übersetzung liefert. Für die Forschung ist das aber super, weil man damit riesige Datenmengen bearbeiten kann, die vorher unmöglich waren.

Warum ist das wichtig?

Wenn wir wissen, wann Wale klicken und wann sie nur Echos hören, können wir herausfinden:

  • Wann jagen sie? (Viele schnelle Klicks = Jagd).
  • Wann reden sie? (Klicks in sozialen Situationen).
  • Wie verstehen sie sich?

CLICK-SPOT ist also wie ein automatischer Dolmetscher, der uns hilft, die geheime Sprache der Wale zu entschlüsseln, indem er den Lärm des Ozeans filtert und die wichtigen Signale herausfiltert. Und das Beste: Diese Technik kann man auch auf Delfine oder andere Wale übertragen, sobald man ihnen ein paar Beispiele zeigt.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →