Each language version is independently generated for its own context, not a direct translation.
🎤 문제: "지친 통역사의 망상"
마이크로소프트나 오픈AI 같은 거대 기업들이 만든 Whisper라는 AI 는 방대한 양의 데이터를 학습해서 매우 똑똑합니다. 하지만 긴 회의나 인터뷰를 녹음해서 텍스트로 바꿀 때, 이 AI 는 가끔 이상한 행동을 합니다.
- 망상 (Hallucination): 실제로는 침묵인데, AI 가 "감사합니다", "다음은..." 같은 가상의 말을 지어냅니다.
- 악순환의 덫 (Repetition Loop): 한 번 실수를 하면 그 실수가 반복되어 "아, 아, 아, 아..."라고 끝없이 반복합니다.
- 내용 생략: 중요한 말을 건너뛰고 넘어갑니다.
왜 이런 걸까요?
긴 녹음 파일을 처리할 때, AI 는 "이전 구절의 결과"를 다음 구절의 맥락으로 사용합니다. 그런데 한 번 실수가 생기면, 그 잘못된 정보가 다음 단계로 전달되면서 오류가 눈덩이처럼 불어납니다. 마치 나쁜 소문이 퍼져나가면서 진실이 왜곡되는 것과 비슷합니다.
💡 해결책: "Whisper-CD (비교를 통한 정교한 선택)"
이 논문이 제안한 Whisper-CD는 모델을 다시 가르치지 않고, **결정하는 순간 (추론 단계)**에 적용하는 똑똑한 방법입니다.
🕵️♂️ 비유: "현실감 있는 통역사 vs. 망상적인 통역사"
AI 가 단어를 고를 때, 보통은 "이게 맞을 것 같아!"라고 가장 확신하는 단어를 선택합니다. Whisper-CD 는 이 과정을 다음과 같이 바꿉니다.
- 원본 (Clean Audio): 실제 녹음된 소리를 AI 에게 들려줍니다. (정상적인 통역사)
- 세 가지 '혼란' 상황 (Negative Inputs): AI 에게 같은 소리를 들려주되, 일부러 소리를 망가뜨려 봅니다.
- 잡음 주입 (Gaussian Noise): 소리에 심한 잡음을 섞어서 들립니다. (귀가 먹먹한 상태)
- 침묵 신호 (Silence): 소리를 아예 끄고 '0'만 넣습니다. (완전한 침묵 상태)
- 시간 이동 (Temporal Shift): 소리의 시작과 끝을 살짝 어긋나게 합니다. (리듬이 깨진 상태)
⚖️ 비교의 마법
AI 는 이 네 가지 상황 (원본 + 3 가지 망가진 상황) 에서 동시에 단어를 예측합니다.
- 원본에서는 "오늘 날씨가 좋네요"라고 확신합니다.
- 하지만 잡음이나 침묵 상태에서도 AI 가 여전히 "오늘 날씨가 좋네요"라고 확신한다면?
- Whisper-CD 의 판단: "아! 이 단어는 실제 소리 때문이 아니라, AI 가 그냥 좋아해서 (망상) 고른 말이야! 이 단어는 제외하자!"
- 반대로, 원본에서만 "오늘 날씨가 좋네요"라고 하고, 다른 상황에서는 전혀 다른 단어를 고른다면?
- Whisper-CD 의 판단: "오, 이 단어는 실제 소리에 확실하게 반응하는 거군! 이걸 선택하자!"
이처럼 **"실제 소리에만 반응하는 단어"**와 **"AI 의 망상에 반응하는 단어"**를 비교해서, 망상적인 단어는 점수를 깎아주고 진짜 단어를 선택하도록 유도합니다.
🚀 효과: 빠르고 정확한 결과
이 방법을 적용하면 어떤 변화가 일어날까요?
- 망상과 반복 제거: AI 가 "감사합니다" 같은 헛소리를 지어내거나, 같은 문장을 10 번 반복하는 악순환을 끊어냅니다.
- 정확도 향상: 실험 결과, 기존 방식보다 오류율 (WER) 이 최대 **24.3%**까지 줄어들었습니다. (예: 100 개 중 20 개를 틀렸다면, 이제 10 개만 틀리게 됨)
- 속도 향상: 다른 고급 기술 (빔 서치) 을 쓰면 속도가 느려지는데, Whisper-CD 는 오히려 48% 더 빠르게 처리할 수 있습니다.
- 설치형 해결책: 모델을 다시 학습시킬 필요가 없습니다. 이미 설치된 Whisper 시스템을 그냥 교체만 하면 바로 효과가 나옵니다.
📝 한 줄 요약
"Whisper-CD 는 AI 가 소리를 들을 때, '잡음'과 '침묵' 상태에서도 똑같은 말을 지어내는지 확인해 보고, 그 '망상'을 걸러내어 진짜 소리에만 집중하게 만드는 똑똑한 필터입니다."
이 기술은 AI 가 긴 이야기를 들을 때, "내가 들은 게 맞나?"라고 스스로 의심하고 확인하는 과정을 통해, 더 정확하고 신뢰할 수 있는 텍스트를 만들어냅니다.