Whisper-CD: Accurate Long-Form Speech Recognition using Multi-Negative Contrastive Decoding
O artigo apresenta o Whisper-CD, um framework de decodificação contrastiva sem treinamento que utiliza perturbações acústicas para reduzir alucinações e melhorar a precisão e a velocidade na transcrição de fala longa com o modelo Whisper.