X-OPD: Cross-Modal On-Policy Distillation for Capability Alignment in Speech LLMs

이 논문은 텍스트 기반 LLM 과의 성능 격차를 해소하기 위해 텍스트 교사 모델의 토큰 단위 피드백을 통해 음성 LLM 의 자체 분포를 탐색하며 능력을 정렬하는 새로운 크로스-모달 온-정책 증류 프레임워크인 X-OPD 를 제안합니다.

Di Cao, Dongjie Fu, Hai Yu, Siqi Zheng, Xu Tan, Tao Jin

게시일 2026-03-27
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎤 문제: "말하는 AI"는 왜 덜 똑똑할까?

상상해 보세요. **글을 쓰는 AI (텍스트 모델)**는 이미 수백 권의 책을 읽고 논리적으로 사고하는 '명문대 졸업생'입니다. 반면, **말하는 AI (음성 모델)**는 이 명문대 졸업생의 능력을 그대로 물려받으려 하지만, 입이 막혀서 말을 더듬거리는 상태입니다.

기존에는 이 두 AI 를 연결할 때, "글을 먼저 읽게 하고 (ASR), 생각하게 하고 (LLM), 다시 말하게 (TTS)" 하는 연쇄 시스템을 썼습니다. 하지만 요즘은 "듣고 바로 대답하는" 끝에서 끝까지 (End-to-End) 시스템을 쓰려고 합니다.

그런데 문제는?
말하는 AI 를 훈련시키려고 하면, 논리력이나 추리 능력이 급격히 떨어집니다. 마치 명문대 졸업생이 갑자기 "말하기 연습"만 하느라, 정작 중요한 '생각하는 능력'을 잊어버린 것처럼요.

왜 그럴까요?

  1. 잘못된 학습 자료: "말하는 방식"으로 논리 문제를 푼 고품질 데이터가 거의 없습니다.
  2. 오류 누적: 글로 된 논리를 소리라는 파장으로 바꾸는 과정에서 정보가 왜곡됩니다.

💡 해결책: X-OPD (교차 모드 온-정책 증류)

저자들은 이 문제를 해결하기 위해 X-OPD라는 새로운 훈련 방법을 개발했습니다. 이를 **'현장 실습형 멘토링 시스템'**이라고 비유할 수 있습니다.

1. 기존 방식 (오프라인 증류) vs 새로운 방식 (온-정책 증류)

  • 기존 방식 (오프라인): 선생님이 쓴 정답지 (글) 를 학생이 외우는 방식입니다. 학생이 직접 문제를 풀다가 틀리면, 정답지를 보고 "아, 내가 틀렸구나"라고 외웁니다.
    • 문제점: 시험장에서 학생이 처음 보는 문제를 풀 때, 외운 정답지와 실제 상황이 달라서 당황합니다 (지식 편향).
  • X-OPD 방식 (온-정책): 학생이 직접 문제를 풀어보게 합니다. 그리고 옆에 있는 글을 잘 쓰는 명문대 멘토가 학생이 풀고 있는 과정을 실시간으로 지켜보다가, "여기서 이렇게 생각하면 더 좋았을 거야"라고 한 글자씩 (토큰 단위) 피드백을 줍니다.
    • 핵심: 학생이 스스로 길을 찾아가는 과정에서 멘토의 '생각 방식'을 직접 체득하게 됩니다.

2. 어떻게 작동할까요? (비유: 악기 연주)

  • 학생 (음성 AI): 피아노를 치며 멜로디 (음성) 를 만듭니다.
  • 멘토 (글 AI): 그 멜로디를 듣고 "이 화음은 조금 어색해. 이론적으로는 이렇게 이어지는 게 자연스러워"라고 조언합니다.
  • X-OPD 의 마법: 학생은 멘토의 조언을 들으며 자신이 만든 멜로디를 즉시 수정합니다. 이때 중요한 건, 학생이 자신의 실수를 스스로 발견하고 고치는 과정을 통해 배우기 때문에, 나중에 새로운 곡을 연주할 때도 당황하지 않는다는 점입니다.

🏆 결과: 무엇이 달라졌나요?

이론만 좋았을 뿐일까요? 아닙니다. 실험 결과 놀라운 변화가 있었습니다.

  1. 격차 해소: 기존 방식 (SFT 등) 은 오히려 성능을 떨어뜨렸지만, X-OPD 를 적용한 모델은 글로 할 때와 말로 할 때의 실력 차이가 거의 사라졌습니다.
    • 예: Qwen3-Omni 모델의 경우, 음성 입력 시 성능 하락이 11% 에서 3% 대로 줄었습니다.
  2. 기억력 보존 (재앙적 망각 방지): 새로운 것을 배우다가 예전에 알던 것 (음악, 소리 인식 등) 을 잊어버리는 '재앙적 망각' 현상이 거의 발생하지 않았습니다.
    • 비유: 논리력을 키우느라 음악 감각을 잃어버리지 않고, 논리력과 음악 감각을 동시에 향상시킨 셈입니다.
  3. 적은 데이터로 큰 효과: 겨우 2 만 7 천 개의 데이터만으로도 엄청난 성과를 냈습니다.

🌟 한 줄 요약

"말하는 AI 가 글을 쓰는 AI 만큼 똑똑해지려면, 정답지를 외우게 하지 말고, 스스로 문제를 풀게 하다가 명문대 멘토가 옆에서 실시간으로 코칭하게 하세요."

이 논문은 바로 그 **'실시간 코칭 시스템 (X-OPD)'**을 제안하여, 앞으로 우리가 대화하는 AI 가 훨씬 더 똑똑하고 자연스럽게 우리와 소통할 수 있는 길을 열었습니다.