DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization

Each language version is independently generated for its own context, not a direct translation.

1. 기존 시스템의 문제: "반말과 존댓말을 오가는 awkward 한 대화"

기존의 대부분의 AI 비서 (카카오톡 챗봇, 시리 등) 는 대화할 때 **VAD(음성 활동 감지)**라는 장치를 사용합니다.

비유: 마치 **"말을 끝낼 때까지 기다리는 엄격한 선생님"**처럼 행동합니다.
문제점: 사용자가 잠시 숨을 고르거나, "음..." 하고 생각할 때, AI 는 "아, 이 사람이 말을 끝냈구나!"라고 오해해서 말을 끊어버립니다. 반대로 사용자가 말을 다 끝내지 않았는데도 AI 가 끼어들어 말을 막는 경우도 생깁니다.
결과: "듣고 → 말하고 → 듣고 → 말하고"라는 절반만 (Half-Duplex) 가능한 대화만 가능해서, 자연스러운 대화 흐름이 깨집니다.

2. DuplexCascade 의 핵심 아이디어: "조각난 퍼즐을 빠르게 맞추는 시스템"

이 논문은 "VAD(음성 감지) 없이도" AI 가 사람처럼 한 번에 듣고 말하며 (Full-Duplex) 대화할 수 있는 방법을 제안합니다.

핵심 전략 1: "거대한 문장"을 "작은 조각"으로 나누기

기존에는 사용자가 문장 전체를 다 말해야 AI 가 반응을 했습니다. 하지만 이 시스템은 0.6 초마다 사용자의 말을 작은 조각 (마이크로 턴) 으로 잘라냅니다.

비유: 긴 글을 한 번에 읽는 게 아니라, 한 줄씩 끊어서 실시간으로 번역하는 것과 같습니다.
효과: 사용자가 "일본의 수도는..."이라고 말하면, AI 는 "도쿄입니다"라고 바로 반응할 수 있습니다. 사용자가 말을 멈추지 않아도 AI 가 중간에 끼어들어 "네, 계속 말씀하세요"라고 반응하거나, 사용자가 말을 끊으면 즉시 대답할 수 있습니다.

핵심 전략 2: "특별한 신호등" (컨트롤 토큰)

AI 가 언제 말을 멈추고, 언제 대답하고, 언제 "네, 네"라고 반응해야 할지 정해주는 특별한 신호를 만들었습니다.

<사용자가 말하고 있어요>: AI 는 입을 다물고 기다립니다.
<사용자가 말 끝냈어요>: AI 가 대답을 시작합니다.
<사용자가 끼어들었어요>: AI 는 지금 말하던 것을 멈추고 사용자의 새로운 말을 듣습니다.
<시스템이 "네"라고 반응할 때>: AI 는 짧게 "네" 소리를 내며 대화를 이어갑니다.
비유: 이는 마치 교통경찰이 신호를 주어, AI 가 언제 멈추고 언제 가야 할지 혼란 없이 움직이게 하는 것과 같습니다.

3. 왜 이 방법이 특별한가요? (지능 유지의 비결)

최근에는 "끝에서 끝까지 (End-to-End)" 연결된 AI 모델들이 나오는데, 이건 말과 글, 소리를 동시에 배우는 방식이라서 지능이 떨어지는 경우가 많았습니다. (비유: 모든 것을 한 번에 배우려다 보니, 수학은 못 하고 노래만 잘 부르는 학생처럼 됨)

DuplexCascade 의 clever 한 점:

기존의 똑똑한 AI(텍스트 LLM) 를 그대로 사용: 이미 글을 읽고 추론하는 능력이 뛰어난 AI 를 기반으로 합니다.
텍스트만 학습: 소리 데이터를 직접 학습하지 않고, 텍스트 대화 데이터만으로 AI 를 훈련시켰습니다.
결과: 지능은 그대로 유지하면서, 실시간 대화 능력만 추가한 것입니다. 마치 고급 두뇌를 가진 사람이, 실시간 통역사 훈련만 받은 것과 같습니다.

4. 실제 성능은 어떨까요?

자연스러운 대화: 사용자가 말을 끊거나, 중간에 "아니, 잠깐"이라고 하면 AI 가 즉시 멈추고 반응합니다.
지능 유지: 복잡한 질문을 해도 기존 AI 만큼 똑똑하게 대답합니다.
빠른 반응: 0.6 초마다 데이터를 처리하므로, 사람이 대화할 때의 리듬과 거의 비슷합니다.

5. 한 줄 요약

"이전에는 AI 가 '말을 끝낼 때까지 기다리는' 수동적인 비서였다면, DuplexCascade 는 '상대방이 말하는 중간에도 끼어들고, 멈추고, 자연스럽게 대화하는' 능동적인 파트너가 됩니다. 그리고 그 지능은 기존 AI 만큼이나 똑똑합니다."

이 기술은 앞으로 우리가 AI 와 대화할 때, 마치 친구와 전화 통화를 하듯 자연스럽고 편안해질 수 있는 기반이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

기존의 음성 대화 시스템은 주로 **ASR(음성인식) → LLM(대화 추론) → TTS(음성합성)**로 이어지는 캐스케이드 (Cascaded) 구조를 채택하고 있습니다. 이 방식은 강력한 텍스트 LLM 의 지능을 활용할 수 있다는 장점이 있지만, 다음과 같은 한계가 존재합니다.

VAD(음성 활동 감지) 의존성: 대부분의 시스템은 외부 VAD 를 사용하여 사용자의 발화를 '턴 (Turn)' 단위로 잘라냅니다. 이는 반이중 (Half-Duplex) 방식 ('듣고 말하기') 을 강제하며, 정지, 중첩, 잡음 상황에서 턴 제어 (Turn-taking) 가 불안정해집니다.
비자연스러운 상호작용: VAD 기반의 엔드포인트링은 의미 있는 정지나 중간 끊김을 오인하여 사용자를 방해하거나, 즉각적인 반응 (백채널 등) 이 필요한 상황에서 침묵하는 등의 문제를 일으킵니다.
엔드 - 투 - 엔드 (E2E) 모델의 한계: VAD 없이 실시간으로 듣고 말하는 풀-듀플렉스 (Full-Duplex) 를 지원하는 E2E 모델은 존재하지만, 교차 모달 (Cross-modal) 표현 학습의 어려움으로 인해 텍스트 LLM 에 비해 대화 지능 (Conversational Intelligence) 이 떨어지는 경우가 많습니다.

2. 제안 방법론 (Methodology)

저자들은 DuplexCascade라는 새로운 VAD 없는 캐스케이드 스트리밍 파이프라인을 제안합니다. 핵심 아이디어는 전통적인 '발화 단위 (Utterance-wise)'의 긴 턴을 '조각 단위 (Chunk-wise) 의 마이크로 턴 (Micro-turn)' 상호작용으로 변환하는 것입니다.

2.1. 아키텍처 개요

스트리밍 ASR: 사용자의 오디오를 실시간으로 부분 텍스트 (Partial text) 로 변환합니다.
마이크로 턴 (Micro-turn): 변환된 텍스트를 고정된 시간 간격 (예: $\Delta t = 0.6$ 초) 마다 버퍼링하여 텍스트 조각으로 LLM 에 전달합니다.
LLM (텍스트 기반): 대화 히스토리 중 최신 마이크로 턴을 입력받아 다음 시스템 응답 (또는 제어 토큰) 을 생성합니다.
스트리밍 TTS: LLM 의 출력을 점진적으로 합성하여 시스템 오디오를 생성합니다.

2.2. 대화 특수 제어 토큰 (Conversational Special Tokens)

스트리밍 제약 하에서 턴 전환과 응답 타이밍을 정밀하게 제어하기 위해 LLM 이 학습해야 하는 특수 토큰 세트를 도입했습니다.

사용자 상태 토큰: <user is speaking>, <user finish speaking>, <user is interrupting>, <user backchannel>, <user is thinking>, <no voice> 등.
시스템 행동 토큰: <system backchannel> (사용자 발화 중 짧은 반응음 재생).
동작 원리: LLM 은 텍스트 생성뿐만 아니라 이러한 토큰을 통해 "계속 기다리기", "응답 시작하기", "생성 중단하기", "백채널 보내기" 등의 행동을 명시적으로 결정합니다.

2.3. 데이터 구성 및 학습 전략

데이터 부족 해결: 풀-듀플렉스 대화 코퍼스가 부족하므로, UltraChat 의 텍스트 대화 50,000 건을 기반으로 **동적 데이터 구성 (Dynamic Construction)**을 수행했습니다.
마이크로 턴 분할: 긴 발화를 1~7 토큰 단위의 작은 조각으로 분할하고, 시스템이 응답할 때까지 <user is speaking> 토큰을 삽입하여 시뮬레이션합니다.
상호작용 시뮬레이션: 자연스러운 정지, 사용자 중첩 (Interruption), 백채널, 시스템 백채널, 사용자 사고 시간 등을 텍스트 데이터에 주석 (Annotation) 으로 추가하여 학습 데이터를 생성했습니다.
경량화 학습 (LoRA): Qwen2-7B-Instruct 를 베이스로 하여, 특수 토큰 임베딩과 예측 헤드를 전체 파인튜닝하고 나머지는 LoRA (Rank 16) 로만 5,000 스텝 동안 경량 적응 (Adaptation) 을 수행했습니다. 텍스트만 사용하여 학습했으므로 교차 모달 정렬 문제를 피할 수 있습니다.

3. 주요 기여 (Key Contributions)

VAD 없는 풀-듀플렉스 캐스케이드: 외부 VAD 없이도 ASR-LLM-TTS 구조를 통해 자연스러운 풀-듀플렉스 상호작용을 구현했습니다.
마이크로 턴 기반 제어: 긴 발화 단위를 작은 시간 조각으로 나누고 특수 토큰을 통해 LLM 이 턴 전환을 직접 제어하도록 하여, 중첩과 정지에 대한 강건성을 확보했습니다.
지능 유지: 텍스트 LLM 의 강력한 추론 능력을 유지하면서 (Cross-modal 학습 불필요), 경량 LoRA 학습만으로 뛰어난 대화 성능을 달성했습니다.
오픈 소스 SOTA 성능: 오픈 소스 음성 대화 시스템 중 최상급의 턴 전환 성능과 대화 지능을 입증했습니다.

4. 실험 결과 (Results)

4.1. Full-Duplex-Bench (턴 전환 성능)

평균 턴 전환 정확도 (Averaged Turn-Taking Accuracy): DuplexCascade 는 평가된 오픈 소스 모델 중 최고의 성능을 기록했습니다.
비교: VAD 기반인 Freeze-Omni 보다 턴 전환의 강건성이 월등히 뛰어났으며, E2E 모델인 Moshi 나 MiniCPM-Duplex 와 비교해도 전반적인 턴 제어 능력에서 우위를 보였습니다.
백채널 (Backchannel): 시스템 백채널을 학습한 DuplexCascade-β 모델은 백채널 관련 지표 (ICC Freq, JSD) 에서 2 위를 기록하며 텍스트 기반 학습으로도 반응 스타일 제어가 가능함을 입증했습니다.

4.2. VoiceBench (대화 지능)

추론 및 지시 따르기: 텍스트 LLM 의 지능을 유지하는지 확인하기 위해 VoiceBench 를 평가했습니다.
결과: DuplexCascade 는 기존 듀플렉스 모델 (Freeze-Omni, Moshi 등) 을 압도적으로 상회했으며, 단순 캐스케이드 (ASR+Qwen2) 와도 경쟁력 있는 점수를 기록했습니다. 이는 텍스트 기반 적응이 LLM 의 핵심 능력을 보존함을 의미합니다.

4.3. 마이크로 턴 지속 시간 ( $\Delta t$ ) 분석

$\Delta t$ 가 1.2 초일 때 턴 전환 정확도가 가장 높았으나, 지연 시간 (Latency) 이 증가했습니다.
최적화: 정확도와 지연 시간 간의 실용적인 트레이드오프를 위해 $\Delta t = 0.6$ 초를 선택하여 사용했습니다.

5. 의의 및 결론 (Significance & Conclusion)

DuplexCascade 는 모듈형 캐스케이드 아키텍처의 장점 (강력한 LLM 지능) 과 풀-듀플렉스 상호작용의 자연스러움을 동시에 달성할 수 있음을 증명했습니다.

기술적 혁신: VAD 에 의존하지 않고 LLM 의 토큰 예측 능력을 통해 턴 전환을 제어하는 새로운 패러다임을 제시했습니다.
실용성: 소량의 텍스트 데이터와 경량 학습 (LoRA) 만으로도 고성능을 달성할 수 있어, 대규모 음성 데이터 수집 및 복잡한 교차 모달 학습 없이도 고성능 음성 비서 개발이 가능함을 보여줍니다.
미래 전망: 이 연구는 텍스트 LLM 의 능력을 최대한 활용하면서도 인간과 유사한 자연스러운 대화 흐름을 구현하는 데 중요한 이정표가 될 것으로 기대됩니다.