Chain of Correction for Full-text Speech Recognition with Large Language Models

이 논문은 대규모 언어 모델을 활용한 자동 음성 인식 결과의 오류 수정을 위해, 사전 인식 텍스트와 전체 문맥을 기반으로 다중 턱 채팅 형식으로 문장 단위의 오류를 점진적으로 교정하는 '교정 연쇄 (Chain of Correction, CoC)' 방법을 제안하고, 오픈 소스 데이터셋을 통한 실험에서 기존 시스템보다 우수한 성능을 입증했습니다.

Zhiyuan Tang, Dong Wang, Zhikai Zhou, Yong Liu, Shen Huang, Shidong Shang

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎙️ "Chain of Correction": AI 가 문장을 하나씩 고쳐주는 마법 같은 비법

이 논문은 음성 인식 (ASR) 기술의 가장 큰 약점인 '잘못 들은 말'을 거대 언어 모델 (LLM) 이 어떻게 완벽하게 고칠 수 있는지에 대한 새로운 방법을 소개합니다.

기존의 방법들은 마치 한 번에 방 전체를 청소하려다 실수를 범하거나, 너무 많은 일을 한 번에 하려다 지쳐버리는 것과 같았습니다. 이 논문은 이를 해결하기 위해 **'Chain of Correction (CoC, 수정의 사슬)'**이라는 새로운 방식을 제안합니다.

이 방식을 쉽게 이해할 수 있도록 3 가지 비유로 설명해 드리겠습니다.


1. 🧩 퍼즐 맞추기 vs. 한 번에 그림 그리기 (왜 새로운 방식이 필요한가?)

기존의 AI 는 긴 문장을 한 번에 다 보고 "어디가 틀렸지?"라고 생각하다가, 너무 긴 문장 때문에 망각 (할루시네이션) 이 생기거나, 과도하게 수정해서 원래 뜻과 달라지는 경우가 많았습니다.

  • 기존 방식 (한 번에 고치기): 긴 원고를 AI 에게 "이거 다 고쳐줘!"라고 던져주면, AI 는 너무 긴 분량에 압도되어 엉뚱한 곳까지 고치거나, 중요한 내용을 빼먹을 수 있습니다.
  • CoC 방식 (조각조각 고치기): 이 논문은 **"한 번에 한 조각씩 고쳐보자"**고 제안합니다. 긴 문장을 작은 조각 (Segment) 으로 나누고, AI 가 한 조각을 고친 뒤, 그 결과를 다음 조각을 고칠 때의 참고 자료로 사용합니다.

비유: 거대한 벽화를 그릴 때, 벽화 전체를 한 번에 보며 그리면 실수가 많지만, 작은 칸 (패널) 하나씩 그려가며 옆에 그려진 그림을 참고하면 훨씬 정확하고 자연스럽게 완성됩니다.

2. 🗣️ 대화하듯 고쳐주는 '코칭' (Chain of Correction 의 핵심)

이 방식은 AI 와 사람이 대화 (채팅) 하듯 진행됩니다.

  1. AI 에게 전체 맥락을 보여줍니다: "이 글의 전체 내용은 이런 거야."라고 먼저 알려줍니다. (문맥 이해)
  2. 조각을 하나씩 보여줍니다: "자, 이제 첫 번째 문장 (조각) 을 고쳐줘."
  3. 고친 결과를 다음에 활용합니다: "첫 번째 문장은 이렇게 고쳤어. 이제 두 번째 문장을 고칠 때 이걸 참고해서 고쳐줘."

이렇게 이전 단계에서 고친 내용을 다음 단계의 맥락으로 연결해 나가기 때문에, AI 는 글의 흐름을 잃지 않고 자연스럽게 수정할 수 있습니다.

비유: 마치 숙제 교정을 할 때, 선생님이 "이 페이지는 잘 고쳤네. 다음 페이지도 이걸 참고해서 고쳐보자"라고 말하며 연속적으로 도와주는 것과 같습니다.

3. 🎚️ '수정 강도 조절기' (과잉 수정 방지)

AI 가 너무 적극적으로 고치면, 원래 의도하지 않은 부분까지 바꿔버릴 수 있습니다 (과잉 수정). 반대로 너무 소극적이면 고쳐야 할 것도 놓칩니다 (수정 부족).

이 논문은 **'수정 임계값 (Correction Threshold)'**이라는 스위치를 도입했습니다.

  • 원문과 고친 글의 차이가 너무 크다면? → "너무 과하게 바꿨네."라고 판단하고 원문을 유지합니다.
  • 적당한 범위라면? → "이건 확실히 고친 게 맞네."라고 받아들입니다.

비유: 요리사가 요리를 할 때, **"간을 너무 많이 봤나?"**라고 자문하며 소금 양을 조절하는 것과 같습니다. 너무 짜지 않게, 하지만 맛있게 조절하는 정교한 저울 역할을 합니다.


🌟 이 방식이 가져온 놀라운 성과

이 '수정의 사슬' 방식을 적용한 AI 는 다음과 같은 일들을 잘 해냅니다:

  • 문장 부호 복원: 쉼표, 마침표가 빠진 곳을 자연스럽게 채웁니다.
  • 숫자/약어 고치기: "100 만 원"을 "1,000,000 원"처럼 정확한 형태로 바꿔줍니다.
  • 중복/불필요한 말 제거: "어... 그... 그..." 같은 말버릇을 깔끔하게 지워줍니다.
  • 맥락 파악: "그"라는 대명사가 누구를 가리키는지 문장 전체를 보고 정확히 알아맞힙니다.

특히 매우 긴 문서 (책 한 권 분량)잡음 속에서 녹음된 긴 대화에서도 기존 방식보다 훨씬 정확하게 고쳐냈습니다.

💡 결론: "작은 걸 하나씩, 하지만 전체를 보며"

이 논문이 전하는 메시지는 간단합니다. "거대한 문제를 한 번에 해결하려 하지 말고, 작은 조각으로 나누어 순차적으로 해결하라."

음성 인식 오류를 고치는 일도 마찬가지입니다. AI 가 전체적인 흐름을 이해하면서 작은 조각 하나씩 대화하듯 고쳐나갈 때, 우리는 훨씬 더 자연스럽고 정확한 텍스트를 얻을 수 있습니다. 이는 미래의 음성 비서나 자동 자막 서비스의 정확도를 획기적으로 높일 수 있는 중요한 기술입니다.