When Denoising Hinders: Revisiting Zero-Shot ASR with SAM-Audio and Whisper
Cette étude démontre que l'utilisation de SAM-Audio pour débruiter la parole avant la transcription par Whisper, bien qu'améliorant la qualité acoustique, dégrade systématiquement les performances de reconnaissance automatique de la parole en mode zéro-shot, révélant ainsi un décalage fondamental entre la clarté perceptive pour l'humain et la robustesse pour la machine.