Detection and Classification of Cetacean Echolocation Clicks using Image-based Object Detection Methods applied to Advanced Wavelet-based Transformations

Questa tesi dimostra l'efficacia di CLICK-SPOT, un metodo di rilevamento basato su deep learning che applica trasformate wavelet avanzate per migliorare la classificazione dei click di ecolocalizzazione dei cetacei in ambienti complessi, superando i limiti delle tradizionali rappresentazioni spettrografiche.

Christopher Hauer

Pubblicato 2026-02-23
📖 5 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

Immagina di essere in mezzo all'oceano, al buio, e di dover ascoltare una conversazione tra balene assassine (orche). Il problema? Non stanno solo "parlando", stanno anche usando il sonar (come i pipistrelli) per cacciare.

Ecco la storia della tesi di Christopher Hauer, raccontata come un'avventura di detective.

1. Il Problema: L'Orologio che non si ferma

Le orche emettono dei suoni brevissimi e potentissimi chiamati "click" (scatti) per vedere nel buio. Ogni secondo, possono farne centinaia.

  • Il lavoro manuale: Per capire cosa fanno queste balene, i biologi devono ascoltare ore di registrazioni e segnare a mano ogni singolo "click" e ogni suo "eco" (il rimbalzo del suono contro una roccia o un pesce).
  • La realtà: È come cercare di contare i granelli di sabbia su una spiaggia mentre c'è una tempesta. Un biologo esperto impiega un'ora per annotare solo un secondo di audio. È impossibile analizzare tutto il materiale necessario manualmente. Serve un assistente robotico.

2. La Soluzione: Trasformare l'Audio in un Quadro

Christopher ha deciso di insegnare a un computer a "vedere" il suono invece di ascoltarlo.
Immagina di prendere un'onda sonora e trasformarla in un'immagine, come una mappa termica o un quadro astratto.

  • Il vecchio metodo (Spectrogramma): È come guardare una foto sfocata. Se ingrandisci troppo il tempo, perdi i dettagli della frequenza (come un'auto che corre troppo veloce e diventa una striscia). Se ingrandisci la frequenza, perdi il tempo esatto.
  • Il nuovo metodo (Ondeletti/Scalogramma): Christopher ha usato una tecnica più intelligente, chiamata Trasformata Wavelet. Immagina di avere una lente magica che cambia forma: quando guardi suoni acuti (veloci), la lente si stringe per vedere i dettagli rapidi; quando guardi suoni gravi (lenti), la lente si allarga per vedere meglio la melodia. Questo permette di vedere i click come picchi nitidi su un'immagine.

3. Il Detective AI: YOLO e il suo "Occhio"

Per trovare questi click nelle immagini sonore, Christopher ha usato un'intelligenza artificiale famosa chiamata YOLO (You Only Look Once - "Guardi solo una volta").

  • Come funziona: Immagina YOLO come un cane da guardia molto veloce che scorre l'immagine. Se vede qualcosa che sembra un click, lancia un "rettangolo" (un box) intorno ad esso e dice: "Ehi, c'è un evento qui!".
  • Il problema: A volte il cane da guardia è un po' confuso. Se ci sono due click vicini, YOLO potrebbe mettere un unico grande rettangolo che li ingloba entrambi, oppure potrebbe confondere un click con un eco (il rimbalzo del suono).

4. Il Segretario Attento: FOD e Random Forest

Per risolvere la confusione, Christopher ha aggiunto due assistenti al detective YOLO:

  • L'Analista Matematico (FOD): Questo è un algoritmo che guarda le "pendenze" del suono. Immagina di camminare su una montagna: il click è una salita ripida e improvvisa. Questo analista dice: "Ehi, dentro quel grande rettangolo di YOLO, c'è una salita ripida qui e un'altra là. Dividiamoli!". Aiuta a separare i click dagli echi che YOLO aveva unito.
  • Il Detective di Contesto (Random Forest): Questo è il vero genio. Un click da solo è difficile da distinguere da un eco. Ma se guardi la sequenza?
    • Esempio: Se senti un suono forte, poi un suono debole dopo 2 millisecondi, e poi un altro suono forte, il detective capisce: "Il primo è il click, il secondo è l'eco che rimbalza, il terzo è un nuovo click".
    • Christopher ha insegnato a questo assistente a guardare il "vicinato" (i suoni prima e dopo) per capire chi è chi, proprio come un umano farebbe.

5. Il Risultato: CLICK-SPOT

Il risultato finale è un sistema chiamato CLICK-SPOT.

  • Cosa fa: Prende una registrazione sottomarina, la trasforma in un'immagine speciale, la fa analizzare da YOLO, poi usa l'analista matematico per separare i suoni e il detective di contesto per dire "Questo è un click, quello è un eco".
  • Quanto è bravo?
    • I vecchi metodi sbagliavano spesso (circa il 60% di errori).
    • CLICK-SPOT è molto più preciso: riesce a identificare il 96% dei click corretti e a distinguerli dagli echi con un'accuratezza dell'82%.
    • È come passare da un bambino che conta a caso a un contabile esperto.

6. Perché è importante?

Prima, i biologi dovevano guardare le balene per sapere cosa facevano. Ora, grazie a questo sistema, possono analizzare ore di audio in pochi minuti (anche se al momento ci vuole ancora un po' di tempo per elaborare tutto, ma è un grande passo avanti).
Questo permette di capire se le balene stanno cacciando, giocando o comunicando, semplicemente ascoltando i loro "click", anche quando non sono visibili in superficie.

In sintesi: Christopher ha insegnato a un computer a "vedere" il suono con lenti speciali, a usare un cane da guardia veloce per trovare i suoni e a un detective esperto per capire la storia dietro ogni suono. Tutto questo per aiutare le orche a raccontare la loro storia senza che noi dobbiamo stare in acqua per ore.

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →