Whisper-CD: Accurate Long-Form Speech Recognition using Multi-Negative Contrastive Decoding

Whisper-CD 는 학습 없이 추론 단계에서 가우시안 노이즈, 무음 신호, 시간 이동 등 세 가지 음향 기반 부정 샘플을 대비하여 생성하는 다중 부정 대비 디코딩 프레임워크를 제안함으로써, 장문 음성 인식의 환각 및 반복 오류를 줄이고 기존 Whisper 시스템에 바로 적용 가능한 효율적인 솔루션을 제공합니다.

Hoseong Ahn, Jeongyun Chae, Yoonji Park, Kyuhong Shim

게시일 Mon, 09 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎤 문제: "지친 통역사의 망상"

마이크로소프트나 오픈AI 같은 거대 기업들이 만든 Whisper라는 AI 는 방대한 양의 데이터를 학습해서 매우 똑똑합니다. 하지만 긴 회의나 인터뷰를 녹음해서 텍스트로 바꿀 때, 이 AI 는 가끔 이상한 행동을 합니다.

  1. 망상 (Hallucination): 실제로는 침묵인데, AI 가 "감사합니다", "다음은..." 같은 가상의 말을 지어냅니다.
  2. 악순환의 덫 (Repetition Loop): 한 번 실수를 하면 그 실수가 반복되어 "아, 아, 아, 아..."라고 끝없이 반복합니다.
  3. 내용 생략: 중요한 말을 건너뛰고 넘어갑니다.

왜 이런 걸까요?
긴 녹음 파일을 처리할 때, AI 는 "이전 구절의 결과"를 다음 구절의 맥락으로 사용합니다. 그런데 한 번 실수가 생기면, 그 잘못된 정보가 다음 단계로 전달되면서 오류가 눈덩이처럼 불어납니다. 마치 나쁜 소문이 퍼져나가면서 진실이 왜곡되는 것과 비슷합니다.


💡 해결책: "Whisper-CD (비교를 통한 정교한 선택)"

이 논문이 제안한 Whisper-CD는 모델을 다시 가르치지 않고, **결정하는 순간 (추론 단계)**에 적용하는 똑똑한 방법입니다.

🕵️‍♂️ 비유: "현실감 있는 통역사 vs. 망상적인 통역사"

AI 가 단어를 고를 때, 보통은 "이게 맞을 것 같아!"라고 가장 확신하는 단어를 선택합니다. Whisper-CD 는 이 과정을 다음과 같이 바꿉니다.

  1. 원본 (Clean Audio): 실제 녹음된 소리를 AI 에게 들려줍니다. (정상적인 통역사)
  2. 세 가지 '혼란' 상황 (Negative Inputs): AI 에게 같은 소리를 들려주되, 일부러 소리를 망가뜨려 봅니다.
    • 잡음 주입 (Gaussian Noise): 소리에 심한 잡음을 섞어서 들립니다. (귀가 먹먹한 상태)
    • 침묵 신호 (Silence): 소리를 아예 끄고 '0'만 넣습니다. (완전한 침묵 상태)
    • 시간 이동 (Temporal Shift): 소리의 시작과 끝을 살짝 어긋나게 합니다. (리듬이 깨진 상태)

⚖️ 비교의 마법

AI 는 이 네 가지 상황 (원본 + 3 가지 망가진 상황) 에서 동시에 단어를 예측합니다.

  • 원본에서는 "오늘 날씨가 좋네요"라고 확신합니다.
  • 하지만 잡음이나 침묵 상태에서도 AI 가 여전히 "오늘 날씨가 좋네요"라고 확신한다면?
    • Whisper-CD 의 판단: "아! 이 단어는 실제 소리 때문이 아니라, AI 가 그냥 좋아해서 (망상) 고른 말이야! 이 단어는 제외하자!"
  • 반대로, 원본에서만 "오늘 날씨가 좋네요"라고 하고, 다른 상황에서는 전혀 다른 단어를 고른다면?
    • Whisper-CD 의 판단: "오, 이 단어는 실제 소리에 확실하게 반응하는 거군! 이걸 선택하자!"

이처럼 **"실제 소리에만 반응하는 단어"**와 **"AI 의 망상에 반응하는 단어"**를 비교해서, 망상적인 단어는 점수를 깎아주고 진짜 단어를 선택하도록 유도합니다.


🚀 효과: 빠르고 정확한 결과

이 방법을 적용하면 어떤 변화가 일어날까요?

  1. 망상과 반복 제거: AI 가 "감사합니다" 같은 헛소리를 지어내거나, 같은 문장을 10 번 반복하는 악순환을 끊어냅니다.
  2. 정확도 향상: 실험 결과, 기존 방식보다 오류율 (WER) 이 최대 **24.3%**까지 줄어들었습니다. (예: 100 개 중 20 개를 틀렸다면, 이제 10 개만 틀리게 됨)
  3. 속도 향상: 다른 고급 기술 (빔 서치) 을 쓰면 속도가 느려지는데, Whisper-CD 는 오히려 48% 더 빠르게 처리할 수 있습니다.
  4. 설치형 해결책: 모델을 다시 학습시킬 필요가 없습니다. 이미 설치된 Whisper 시스템을 그냥 교체만 하면 바로 효과가 나옵니다.

📝 한 줄 요약

"Whisper-CD 는 AI 가 소리를 들을 때, '잡음'과 '침묵' 상태에서도 똑같은 말을 지어내는지 확인해 보고, 그 '망상'을 걸러내어 진짜 소리에만 집중하게 만드는 똑똑한 필터입니다."

이 기술은 AI 가 긴 이야기를 들을 때, "내가 들은 게 맞나?"라고 스스로 의심하고 확인하는 과정을 통해, 더 정확하고 신뢰할 수 있는 텍스트를 만들어냅니다.