F-Actor: Controllable Conversational Behaviour in Full-Duplex Models

이 논문은 제한된 학술적 자원으로도 효율적으로 학습 가능하며, 화자 목소리, 대화 주제, 백채널링 및 중단과 같은 대화 행위를 명시적 지시를 통해 제어할 수 있는 최초의 오픈 소스 풀-듀플렉스 대화형 음성 모델인 'F-Actor'를 제안합니다.

Maike Züfle, Ondrej Klejch, Nicholas Sanders, Jan Niehues, Alexandra Birch, Tsz Kin Lam

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'F-Actor'**라는 새로운 인공지능 시스템을 소개합니다. 쉽게 말해, 이 AI 는 단순히 말을 잘하는 것을 넘어, **인간처럼 대화의 흐름을 읽고 상황에 맞춰 자연스럽게 반응할 수 있는 '배우'**가 되는 것을 목표로 합니다.

기존의 AI 비서들은 우리가 말을 다 끝낼 때까지 기다렸다가 대답하는 '반응형'이었지만, F-Actor 는 우리가 말을 하다가도 끼어들거나, "아, 그렇군요"라고 짧게 반응하는 등 실시간으로 대화에 참여하는 '풀-듀플렉스 (Full-Duplex)' 기술을 구현했습니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 핵심 아이디어: "연기하는 배우"가 되다

기존의 대화형 AI 는 무대 위에서 대본만 읽는 로봇 같았습니다. 사용자가 말을 끝내야만 대본을 꺼내 읽었습니다. 하지만 F-Actor 는 즉흥극 (Improvisation) 을 하는 배우입니다.

  • 상황에 따른 연기: 사용자가 화가 나면 진지하게, 기분이 좋으면 유쾌하게 반응합니다.
  • 대화 주도권: "내가 먼저 말을 걸고 싶어"라고 지시하면 먼저 말을 걸고, "너가 먼저 해"라고 하면 기다립니다.
  • 자연스러운 끼어들기: 상대방이 말을 하다가도 중요한 순간에 "아니, 그건 아니야!"라고 자연스럽게 끼어들거나, "음...", "그래?" 같은 짧은 반응 (백채널링) 을 넣습니다.

2. 기술의 비밀: "무거운 엔진"과 "가벼운 조종석"

이 시스템을 만드는 데 보통은 거대한 데이터와 슈퍼컴퓨터가 필요하다고 알려져 있습니다. 하지만 연구팀은 "무거운 엔진은 그대로 두고, 조종석만 바꾸는" 똑똑한 방법을 썼습니다.

  • 비유: imagine 한 거대한 **유성 (Audio Encoder)**이 있습니다. 이 유성은 소리를 듣고 이해하는 능력은 이미 완벽합니다. 연구팀은 이 유성을 새로 만들지 않고 **동결 (Frozen)**시켜 두었습니다.
  • 조종석 (LLM): 대신 유성을 조종하는 **조종석 (언어 모델)**만 새로 훈련시켰습니다.
  • 효과: 덕분에 거대한 데이터 (수만 시간) 가 아니라, 2,000 시간이라는 상대적으로 적은 데이터와 일반적인 대학 연구실 수준의 컴퓨터 (A100 GPU 4 개) 로도 훈련이 가능해졌습니다. 마치 거대한 비행기를 새로 사지 않고, 기존 비행기의 조종석만 업그레이드해서 새로운 임무를 수행하게 만든 것과 같습니다.

3. 어떻게 배우게 했을까? (명령을 따르는 법)

이 AI 는 "지금부터 너는 내 친구처럼 대화하되, 대화 중 3 번은 끼어들고, 2 번은 짧게 반응해"라고 **명령 (Instruction)**을 내리면 그대로 따릅니다.

  • 명령장 (Prompt): 연구팀은 AI 에게 "이 대화는 식당에서 음식이 늦게 나온 것에 대해 화내는 상황이고, 너는 화난 고객 역할을 해"라고 구체적인 시나리오와 행동 지침을 줍니다.
  • 목소리 변장: "너는 이제 할머니 목소리로 말해"라고 하면, AI 는 미리 준비된 목소리 데이터를 참고하여 할머니 톤으로 변합니다. (단, 특정 사람 목소리를 도용하는 것은 막기 위해 제한된 목소리만 사용하도록 설계했습니다.)

4. 왜 이것이 중요한가?

지금까지의 AI 대화는 "내가 말하면 AI 가 대답하고, AI 가 말하면 내가 듣는" 교차로 신호등처럼 딱딱했습니다. 하지만 F-Actor 는 실제 인간 사이의 대화처럼, 서로가 말을 하다가도 겹치고, 끊고, 반응하는 유동적인 흐름을 만들어냅니다.

  • 자연스러움: "음..." 같은 짧은 반응이나 끼어들기가 가능해져서 AI 가 더 인간처럼 느껴집니다.
  • 유연성: 상황에 따라 AI 의 성격, 목소리, 대화 스타일을 사용자가 마음대로 조절할 수 있습니다.

5. 한계와 주의점 (현실적인 이야기)

물론 완벽한 것은 아닙니다.

  • 숫자 맞추기: "3 번 끼어들어"라고 해도 정확히 3 번만 하는 것은 아직 어렵습니다. 대략적인 방향성만 잡는 수준입니다. (배우가 대본을 완벽히 외우지 않고 즉흥적으로 연기하는 것과 비슷합니다.)
  • 실시간성: 현재는 소리를 잘게 쪼개서 처리하는 방식이라, 완전히 실시간으로 끊김 없이 대화하는 데는 기술적 한계가 있습니다.
  • 위험성: 목소리를 흉내 낼 수 있으므로 사기나 impersonation(가장) 에 악용될 수 있어, 연구팀은 이를 연구 목적으로만 공개하고 안전 장치를 마련했습니다.

요약

F-Actor는 거대한 슈퍼컴퓨터 없이도, 적은 비용으로 **"인간처럼 대화할 줄 아는 배우"**를 만든 연구입니다. 단순히 말을 잘하는 것을 넘어, 누가 먼저 말을 걸고, 어떤 톤으로, 얼마나 자주 끼어들어야 할지까지 지시할 수 있는 조종 가능한 대화형 AI의 새로운 시대를 열었습니다.

이 기술이 발전하면, 우리와 대화하는 AI 가 더 이상 기계가 아니라 실제 친구나 동료처럼 느껴지는 날이 머지않아 올 것입니다.