Predicting PANSS symptoms in schizophrenia spectrum disorders using speech only: an international, multi-centre, retrospective, computational study across multiple languages

본 연구는 10 개 국가의 453 명 정신분열증 환자를 대상으로 한 대규모 국제 다국어 코퍼스를 활용하여, 전사본 없이 음성 데이터만으로 정신분열증의 증상 심각도 (PANSS) 를 예측하는 머신러닝 모델의 유효성과 임상적 가치를 입증했습니다.

He, R., Kirdun, M., Palominos, C., Navarrete Orejudo, L., Barthelemy, S., Bhola, S., Ciampelli, S., Decker, A., Demirlek, C., Fusaroli, R., Garcia-Molina, J. T., Gimenez, G., Huppi, R., Koelkebeck, K., Lecomte, A., Qiu, R., Simonsen, A., Tourneur, V., Verim, B., Wang, H., Yalincetin, B., Yin, S., Zhou, Y., Amblard, M., Ayesa Arriola, R., Bora, E., de Boer, J., Figueroa-Barra, A. I., Koops, S., Musiol, M., Palaniyappan, L., Parola, A., Spaniel, F., Tang, S. X., Sommer, I. E., Homan, P., Hinzen, W.

게시일 2026-02-28
📖 3 분 읽기☕ 가벼운 읽기
⚕️

이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

1. "목소리는 마음의 거울" (연구의 배경)

정신분열증 환자는 증상이 심해지거나 (재발), 나아지거나 (호전) 할 때, 목소리에 미세한 변화가 생깁니다.

  • 기존 방식: 의사가 환자를 만나 1 시간 이상 대화하며 증상을 체크하는 'PANSS'라는 점수표를 채웁니다. 이는 시간도 많이 들고, 의사의 주관적 판단이 개입될 수 있습니다.
  • 이 연구의 아이디어: "목소리는 마음의 상태를 그대로 비추는 거울"입니다. 환자가 어떤 말을 하든 (전혀 중요하지 않음), 목소리의 높낮이, 속도, 떨림, 멈춤 같은 '음성 패턴'만 분석해도 증상의 심각도를 알 수 있다는 가설을 세웠습니다.

2. "전 세계 10 개 나라의 목소리를 한데 모은 거대한 도서관" (데이터)

이 연구의 가장 큰 특징은 규모와 다양성입니다.

  • 비유: 과거 연구들은 영어만 쓰거나, 환자 수가 50 명 미만인 작은 도서관처럼 제한적이었습니다. 하지만 이 연구는 전 세계 10 개 도시 (미국, 중국, 독일, 터키, 스페인 등) 에서 모은 453 명의 환자 목소리를 한데 모았습니다.
  • 다국어 처리: 영어, 중국어, 독일어, 터키어 등 다양한 언어를 섞어서 분석했습니다. 마치 다양한 악기로 연주된 음악을 한 악보로 해석하는 것처럼, 언어가 달라도 목소리에 숨겨진 '정신적 패턴'은 공통적으로 존재한다는 것을 증명했습니다.
  • 데이터 양: 녹음 파일을 잘게 쪼개어 총 6,664 개의 음성 조각을 만들었습니다. 이는 AI 가 배우기에 충분한 방대한 양입니다.

3. "텍스트 없이 목소리만으로 읽는 AI" (기술과 결과)

기존의 많은 연구는 환자가 한 말을 글자로 옮겨 (대본 작성) 분석했습니다. 하지만 이 연구는 대본 없이 오직 소리 (음성) 만으로 분석했습니다.

  • 비유: 마치 눈을 감고 사람의 목소리 톤만 듣고 그 사람의 기분을 맞추는 명상가처럼 작동합니다.
    • 기술: AI 는 환자가 한 말의 '내용'을 알 필요 없이, 목소리의 리듬, 높낮이, 끊김 같은 특징을 학습합니다. 특히 최신 AI 기술인 '멀티언어 HuBERT'라는 모델을 사용해, 언어를 모르고도 목소리 속의 감정을 읽어냅니다.
  • 결과:
    • AI 는 환자의 증상 점수 (17 점) 를 약 1.5 점 오차 내에서 예측했습니다. (예: 실제 5 점이라면 AI 는 3.56.5 점 사이를 예측) 이는 임상적으로 매우 유용한 정확도입니다.
    • 편견 없음: 나이, 성별, 학력에 따라 예측이 크게 달라지지 않았습니다. (다만 남성 환자의 특정 증상 예측은 조금 어려웠습니다.)
    • 심각도: 증상이 아주 심할 때는 예측이 조금 어려워졌지만, 이는 증상이 심할 때 목소리 패턴이 더 복잡해지기 때문입니다.

4. 왜 이것이 중요한가요? (미래의 가능성)

이 기술은 디지털 건강 감시자가 될 수 있습니다.

  • 실시간 모니터링: 환자가 병원에 오지 않아도, 집에서 스마트폰으로 짧은 대화를 녹음하면 AI 가 "오늘 증상은 조금 불안정해 보입니다"라고 경고할 수 있습니다.
  • 재발 예방: 증상이 심해지기 전에 미리 알아차려, 환자가 급격히 악화되는 '재발'을 막을 수 있습니다.
  • 편의성: 대본을 작성할 필요도, 특정 언어를 할 필요도 없습니다. 목소리만 있으면 됩니다.

요약

이 연구는 **"전 세계 다양한 언어의 환자 목소리를 AI 에게 가르쳐, 글자 없이도 증상을 정확히 예측하는 시스템을 만들었다"**는 것입니다. 이는 마치 의사가 24 시간 내내 환자의 목소리를 듣고 상태를 체크해주는 디지털 조력자를 만든 것과 같으며, 정신건강 관리의 미래를 바꿀 수 있는 중요한 첫걸음입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →