Whisper-CD: Accurate Long-Form Speech Recognition using Multi-Negative Contrastive Decoding
Il paper presenta Whisper-CD, un framework di decoding contrastivo senza addestramento che riduce significativamente le allucinazioni e aumenta l'efficienza nel riconoscimento vocale a lungo termine confrontando i logit dell'audio pulito con quelli generati da perturbazioni acustiche negative.