Uni-ASR: Unified LLM-Based Architecture for Non-Streaming and Streaming Automatic Speech Recognition

이 논문은 저지연 스트리밍 환경에서도 비스트리밍 및 스트리밍 자동 음성 인식 (ASR) 을 하나의 아키텍처로 통합하고, 추가적인 지연 없이 정확도를 향상시키는 Uni-ASR 프레임워크를 제안합니다.

Yinfeng Xia, Jian Tang, Junfeng Hou, Gaopeng Xu, Haitao Yao

게시일 Fri, 13 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'Uni-ASR'**이라는 새로운 인공지능 기술을 소개합니다. 쉽게 말해, **"한 번의 훈련으로 '완벽한 번역'과 '실시간 통역'을 모두 해내는 똑똑한 비서"**를 만든 이야기입니다.

기존의 기술들은 보통 두 가지 역할이 분리되어 있었습니다.

  1. 완벽한 번역 (비스트리밍): 모든 말을 다 듣고 나서 천천히, 정확하게 정리하는 방식 (예: 녹음된 파일을 분석할 때).
  2. 실시간 통역 (스트리밍): 사람이 말하는 대로 즉시 자막을 띄우는 방식 (예: 유튜브 실시간 자막).

기존에는 이 두 가지를 위해 서로 다른 모델을 따로 만들어야 했거나, 실시간 기능을 넣으려면 정확도가 떨어지는 문제가 있었습니다. 하지만 Uni-ASR은 이 두 가지를 하나로 통합했습니다.

이 기술을 이해하기 위해 세 가지 비유를 들어보겠습니다.


1. "한 번에 두 마리 토끼를 잡는" 통합 모델

기존의 방식은 완벽한 번역가빠른 통역사를 따로 고용해야 했습니다.

  • 완벽한 번역가: 모든 말을 듣고 나서 "아, 이 문장은 이렇게 해석해야겠구나"라고 생각하며 아주 정확한 글을 씁니다. 하지만 시간이 걸립니다.
  • 빠른 통역사: 사람이 말하는 대로 즉시 적어내지만, 앞뒤 문맥을 다 못 봐서 가끔 실수를 하거나 뒤늦게 고쳐야 합니다.

Uni-ASR은 이 두 사람을 합쳐서 **한 명의 '슈퍼 비서'**로 만들었습니다. 이 비서는 상황에 따라 자동으로 모드를 바꿉니다.

  • "지금 녹음 파일 분석이 필요해?" → 완벽한 번역 모드로 전환 (정확도 100% 목표).
  • "지금 실시간 회의 중이야? 빨리 적어줘!" → 실시간 통역 모드로 전환 (지연 시간 최소화).

이 모델은 구조를 바꾸지 않고도 두 가지 일을 모두 잘해냅니다. 마치 스마트폰 카메라가 '프로 모드'와 '자동 모드'를 한 기기로 모두 지원하는 것과 비슷합니다.

2. "조각난 퍼즐"을 맞추는 훈련 방식 (Context-Aware Training)

실시간 통역의 가장 큰 난관은 **'조각난 정보'**입니다. 사람이 말을 할 때, AI 는 문장이 다 끝나기 전에 앞부분만 듣고 추측해야 합니다. 이때 AI 는 "아, 이 단어는 나중에 바뀔 수도 있겠지?"라고 생각하며 잠시 기다렸다가, 다음 단어가 들어오면 이전 단어를 다시 고쳐야 합니다.

기존 AI 는 훈련할 때 "문장이 다 끝난 상태"만 봤기 때문에, "아, 앞부분을 다시 고쳐야겠다"는 상황을 제대로 배우지 못했습니다.

Uni-ASR은 이 문제를 해결하기 위해 특별한 훈련을 시켰습니다.

  • 비유: 마치 퍼즐을 맞추는 연습을 할 때, 조각이 하나씩 들어오는 상황을 의도적으로 만들어주는 것입니다.
  • "이 조각이 들어오면, 앞쪽 조각이 잘못됐을 수 있으니 다시 맞춰봐"라고 가르친 것입니다.
  • 이를 통해 AI 는 실시간으로 들어오는 말 조각을 들으면서, "아, 앞부분을 조금 수정해야겠다"는 것을 자연스럽게 학습하게 됩니다.

3. "되돌아가서 다시 쓰는" 지능형 수정 전략 (Fallback Decoding)

실시간 통역 중에는 가끔 AI 가 "이건 이렇게 말할 거야!"라고 확신하고 단어를 내보내지만, 다음 문장을 듣고 나면 "아, 아니야! 앞부분이 달라져야 해!"라고 깨닫는 경우가 있습니다.

기존 시스템은 이렇게 되면 **지연 시간 (Latency)**이 늘어나거나, 아예 수정을 못 하고 실수를 저지르곤 했습니다.

Uni-ASR'되돌아가서 다시 쓰는 (Fallback)' 전략을 사용합니다.

  • 비유: 실시간 자막을 달 때, AI 가 "안녕하세요"라고 띄웠는데, 다음 말을 듣고 "아, '안녕하세요'가 아니라 '안녕하십니까'였구나!"라고 깨닫습니다.
  • 이때, AI 는 아직 화면에 안 나온 상태에서 바로 앞 단어를 지우고 올바른 단어로 다시 채웁니다.
  • 사용자는 이 과정을 거의 느끼지 못하며, AI 는 지연 시간을 늘리지 않고 정확도를 높입니다. 마치 글쓰기 프로그램의 자동 완성이 문맥을 보고 단어를 바로바로 고쳐주는 것과 같습니다.

결론: 왜 이것이 중요한가요?

이 논문은 "정확한 것"과 "빠른 것"을 서로 trade-off(상충 관계) 로 보지 않고, 둘 다 잡을 수 있다는 것을 증명했습니다.

  • 기존: 빠른 건 느리고, 정확한 건 느림.
  • Uni-ASR: 빠른 것도 빠르고, 정확한 것도 정확함.

이 기술이 적용되면, 실시간 회의 자막, 생방송 번역, 음성 비서 등 지연 없이, 하지만 실수 없이 말을 알아듣는 세상이 열릴 것입니다. 마치 한 번의 훈련으로 모든 상황에 적응하는 만능 비서가 우리 곁에 온 것과 같습니다.