A cross-species neural foundation model for end-to-end speech decoding

이 논문은 다양한 종과 과제를 아우르는 사전 학습된 신경 인코더와 오디오 대규모 언어 모델을 결합하여 말하기와 상상된 말하기 모두를 통합적으로 처리하고 기존 최첨단 성능을 크게 앞지르는 종단간 뇌-텍스트 해독 프레임워크를 제안합니다.

Yizi Zhang, Linyang He, Chaofei Fan, Tingkai Liu, Han Yu, Trung Le, Jingyuan Li, Scott Linderman, Lea Duncker, Francis R Willett, Nima Mesgarani, Liam Paninski

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

뇌에서 말로: "BIT"라는 새로운 번역기의 이야기

이 논문은 마비로 인해 말을 할 수 없는 사람들을 위해, 뇌의 신호를 직접 글자로 바꿔주는 획기적인 기술을 소개합니다. 연구팀이 개발한 이 시스템의 이름은 **BIT(BraIn-to-Text)**입니다.

기존의 방식과 BIT 가 어떻게 다른지, 그리고 왜 이것이 중요한지 쉬운 비유로 설명해 드릴게요.


1. 기존 방식의 문제점: "번역 - 편집 - 교정"의 지루한 과정

기존의 뇌 - 말 인터페이스 (BCI) 는 마치 외국어를 모르는 사람이 문장을 번역하는 과정과 비슷했습니다.

  1. 뇌 신호 → 소리 (음소): 먼저 뇌의 신호를 "소리" (예: 'ㄱ', 'ㅏ' 같은 작은 소리 단위) 로 번역합니다. (이때 RNN 이라는 옛날 방식의 AI 를 사용)
  2. 소리 → 문장: 번역된 소리 조각들을 이어붙여 문장을 만듭니다.
  3. 문장 교정: 만든 문장이 어색하면, 사전이나 문법 규칙 (n-gram 언어 모델) 을 찾아서 고칩니다.

문제점: 이 과정은 각 단계가 따로 놀기 때문에, 첫 단계인 '소리 번역'이 완벽해도 전체 문장이 매끄럽지 않을 수 있습니다. 마치 번역기가 단어는 잘 번역해도 문맥이 어색한 것과 같습니다. 또한, 각 단계를 따로 따로 훈련해야 해서 최적화가 어렵습니다.


2. BIT 의 혁신: "뇌를 가진 통역사"

BIT 는 이 복잡한 과정을 한 번에 해결합니다. 마치 뇌 신호를 직접 문장으로 번역하는 '한 방' 통역사처럼 작동합니다.

핵심 비유 1: "다양한 경험을 가진 천재 통역사 (사전 학습)"

BIT 의 가장 큰 특징은 뇌 신호를 읽는 '통역사 (인코더)'가 인간과 원숭이, 그리고 다양한 운동 (말하기, 팔 움직임) 데이터를 미리 많이 공부했다는 점입니다.

  • 비유: imagine 하세요. 이 통역사가 학교에서 '말하기' 수업만 들은 게 아니라, '팔로 그림 그리기', '원숭이들의 운동' 등 다양한 경험을 쌓고 왔다고요.
  • 효과: 덕분에 이 통역사는 뇌 신호의 미세한 뉘앙스도 잘 이해합니다. 특히, **말을 '내심'으로 생각할 때 (상상된 말)**의 뇌 신호도 잘 읽어냅니다. 기존에는 상상된 말을 읽기가 매우 어려웠는데, BIT 는 다양한 경험을 통해 이를 해결했습니다.

핵심 비유 2: "뇌에 귀를 달아준 AI (LLM)"

BIT 는 최신 AI 언어 모델 (LLM) 에 뇌 신호를 읽는 '귀'를 달아주었습니다.

  • 기존: 뇌 신호를 먼저 소리 단위로 바꾸고, 그 소리를 AI 가 문장으로 만듦.
  • BIT: 뇌 신호를 AI 가 직접 "이 뇌 신호는 '삶을 즐기자'라는 문장이다"라고 바로 이해함.
  • 효과: 중간 단계를 거치지 않아서 훨씬 빠르고 정확합니다. 연구 결과, 기존 방식의 오류율 (24.69%) 을 **10.22%**까지 크게 줄였습니다.

3. 왜 이것이 중요한가요?

1) "상상"으로도 대화 가능

마비 환자들은 입술을 움직여 소리를 내는 것 (시도된 말) 이 아니라, 머릿속으로만 말을 하는 것 (상상된 말) 을 통해 소통하고 싶어 합니다. BIT 는 이 두 가지 뇌 신호의 패턴을 비슷한 언어 구조로 맞춰주어, 상상만으로도 정확한 문장을 만들어냅니다.

2) "작은 AI"가 큰 힘을 발휘

놀랍게도, 거대한 AI 모델보다 작은 오디오 기반 AI 모델이 뇌 신호 번역에 더 효과적이었습니다. 이는 뇌 신호가 '소리'의 파동과 유사하기 때문에, 소리를 잘 이해하는 AI 가 뇌 신호를 더 잘 해석한다는 뜻입니다.


4. 요약: BIT 가 가져올 변화

이 기술은 마치 **마비 환자의 뇌와 세상 사이를 연결하는 '직통 케이블'**을 설치하는 것과 같습니다.

  • 과거: 뇌 신호 → (번역) → 소리 → (조립) → 문장 → (교정) → 결과 (오류 많음, 느림)
  • BIT: 뇌 신호 → (직접 이해) → 문장 (정확함, 빠름)

이 연구는 단순히 기술의 발전을 넘어, 말할 수 없는 사람들이 AI 와 함께 자유롭게 대화하며 일상생활을 영위할 수 있는 미래를 열었습니다. 비록 실시간 속도를 더 높이고, 더 많은 데이터를 확보해야 할 과제는 남아 있지만, '뇌에서 말로'라는 길을 여는 중요한 첫걸음입니다.