Lack of Consensus for Manual Mouse Sleep Scoring Limits Implementation of… — 쉬운 설명

원저자: Rose, L., Zahid, A. N., Ciudad, J. G., Egebjerg, C., Piilgaard, L., Soerensen, F. L., Andersen, M., Radovanovic, T., Tsopanidou, A., Nedergaard, M., Arthaud, S., Maciel, R., Peyron, C., Berteotti, C.

게시일 2026-03-30

📖 3 분 읽기☕ 가벼운 읽기

보기: bioRxiv ↗PDF ↗

⚕️

이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

🍳 핵심 비유: "요리 레시피와 재료의 차이"

상상해 보세요. 전 세계의 유명 요리사들 (AI 모델) 이 **"쥐의 수면 (Wake, NREM, REM)"**이라는 요리를 만들려고 합니다. 그런데 문제는 다음과 같습니다.

재료 (신호) 가 다릅니다: 각 실험실 (요리사) 마다 사용하는 전기 장비, 쥐의 종류, 심지어 쥐가 자는 방의 환경이 다릅니다. 이는 마치 각 요리사가 사용하는 소금의 종류나 불의 세기가 제각각인 것과 같습니다.
레시피 (수면 판정 기준) 가 다릅니다: 가장 큰 문제는 '어떤 상태가 수면인가?'를 판단하는 기준이 사람마다 다르다는 것입니다. 한 요리사는 "약간 눈이 감기만 해도 잠 (NREM) 이라고 본다"고 하고, 다른 요리사는 "완전히 움직이지 않아야 잠이라고 본다"고 합니다.

이 논문은 바로 이 **"레시피의 불일치"**가 인공지능이 실패하는 주된 원인이라고 지적합니다.

📝 이 연구가 발견한 3 가지 중요한 사실

1. "한 실험실의 천재는 다른 실험실에서는 평범한 요리사다"

기존에 발표된 4 개의 최신 AI 모델 (SPINDLE, SS-ANN 등) 은 자신이 훈련된 실험실에서는 99% 이상의 정확도로 수면을 잘 분류했습니다. 마치 A 지역에서만 팔던 유명한 햄버거가 그 지역에서는 맛있게 팔리는 것과 같습니다.

하지만 이 햄버거를 B 지역, C 지역으로 가져가서 팔려니? 완전히 맛이 달라졌습니다.

다른 실험실의 데이터 (재료) 를 넣으면 AI 는 혼란을 겪어 "이건 잠일까? 깨어있을까?"를 제대로 구분하지 못했습니다.
특히 **REM 수면 (꿈을 꾸는 깊은 잠)**을 구별하는 데서 가장 큰 실수를 범했습니다.

2. "다양한 재료를 섞으면 더 맛있는 요리가 된다"

연구진은 "그럼 AI 를 더 똑똑하게 만들자"가 아니라, **"AI 가 배울 수 있는 데이터를 더 다양하게 주자"**고 생각했습니다.

기존 방식: 한 실험실의 데이터만 보고 공부함.
새로운 방식: 5 개 서로 다른 실험실의 데이터를 모두 섞어서 AI 를 다시 훈련시킴.

그 결과, 다양한 데이터로 훈련된 AI 는 어떤 실험실의 데이터가 들어와도 훨씬 잘 적응했습니다. 이는 마치 전 세계의 다양한 식재료를 맛본 요리사가 어떤 재료가 들어와도 맛있는 요리를 만들어내는 것과 같습니다. 연구진은 "데이터의 양보다 다양성이 더 중요하다"고 결론 내렸습니다.

3. "심지어 인간 전문가들도 의견이 엇갈린다"

가장 놀라운 발견은 이것입니다. 인간 전문가들조차 같은 쥐의 수면 기록을 보고도 서로 다르게 판정했습니다.

연구진은 5 개 실험실의 전문가 10 명에게 동일한 9 개의 쥐 기록을 주었습니다.
결과는? 의견이 일치하지 않았습니다. 특히 REM 수면 구간에서는 "이건 잠이다"라고 한 사람과 "아니, 잠이 아니다"라고 한 사람이 공존했습니다.
이는 마치 10 명의 미식가가 같은 요리를 시식했을 때, "이건 매운맛이다"라고 한 사람과 "약간 매콤하다"라고 한 사람이 섞여 있는 상황과 같습니다.

AI 가 인간 전문가의 판정 (정답) 을 배우는데, 그 '정답' 자체가 사람마다 다르다면 AI 가 완벽해질 수는 없습니다. 이것이 바로 **"레이블 노이즈 (Label Noise)"**라는 문제입니다.

💡 결론: 우리가 무엇을 배웠나요?

이 논문은 우리에게 다음과 같은 교훈을 줍니다.

새로운 AI 모델을 만드는 것보다 중요한 것은 '표준화'입니다.
지금 당장 더 똑똑한 알고리즘을 개발하는 것보다, 전 세계 실험실들이 **"쥐의 수면을 어떻게 판정할 것인가?"에 대한 공통된 규칙 (레시피)**을 정하는 것이 훨씬 시급합니다.
AI 는 완벽하지 않지만, 유용한 도구입니다.
인간 전문가들조차 의견이 엇갈리는데 AI 가 100% 정확할 수는 없습니다. 하지만 다양한 데이터로 훈련된 AI는 인간보다 일관성 있게 수면을 분류할 수 있는 '준비된 도구'가 될 수 있습니다.
미래의 방향:
이제부터는 AI 가 "이건 잠이다"라고 딱 잘라 말하는 대신, **"이건 80% 확률로 잠이고 20% 확률로 깨어있는 상태일 수도 있다"**는 식으로 **불확실성을 포함하여 보여주는 것 (Hypnodensity)**이 중요해졌습니다. 이는 마치 요리사가 "이 요리는 매운맛일 수도 있고, 약간의 매콤함일 수도 있다"고 솔직하게 설명하는 것과 같습니다.

🌟 한 줄 요약

"쥐의 수면을 자동으로 분석하는 AI 가 실패한 이유는 AI 가 못해서가 아니라, 인간 전문가들조차 수면 판정 기준이 제각각이라서였습니다. 이제는 AI 를 더 똑똑하게 만드는 것보다, 전 세계가 '수면 판정 규칙'을 하나로 통일하는 것이 먼저입니다."

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

배경: 마우스는 유전자 조작 및 정교한 표현형 분석이 용이하여 수면 연구에 널리 사용되지만, 인간과 달리 수면 단계 (각성, NREM 수면, REM 수면) 를 분류하기 위한 표준화된 가이드라인이 부재합니다.
문제:
- 자동화의 한계: 기존에 발표된 딥러닝 기반 자동 수면 스코어링 모델 (SPINDLE, SS-ANN, Grieger, SlumberNet 등) 은 훈련된 특정 실험실 데이터에서는 높은 성능을 보이지만, 다른 실험실의 데이터 (외부 데이터셋) 에 적용 시 일반화 (Generalization) 능력이 현저히 떨어집니다.
- 변동의 원인: 이러한 성능 저하는 신호의 기술적/생물학적 변동성뿐만 아니라, **수동 스코어링 전문가 간의 라벨 노이즈 (Label Noise)**에서 기인합니다. 특히 REM 수면 단계에서 전문가 간 합의가 부족하여 모델 학습에 혼란을 줍니다.
- 과대평가된 성능: 기존 연구들은 주로 단일 실험실 데이터로 훈련 및 평가하여 성능을 과대평가하는 경향이 있으며, 이는 실제 현장 적용 가능성을 왜곡합니다.

2. 연구 방법론 (Methodology)

이 연구는 세 가지 주요 실험을 통해 문제를 해결하고자 했습니다.

A. 데이터 수집

5 개 실험실 (Cohort A-E) 데이터: 총 83 마리의 야생형 (WT) 마우스 EEG/EMG 데이터를 수집하여 기존 4 가지 최신 모델 (SPINDLE, SS-ANN, Grieger, SlumberNet) 의 외부 데이터 일반화 능력을 검증했습니다.
일관성 평가 데이터 (Cohort F): 5 마리의 마우스에서 9 개의 녹음 데이터를 확보하고, 이를 5 개 실험실의 총 10 명의 전문가에게 동일한 데이터로 수동 스코어링하게 하여 라벨 노이즈와 전문가 간/내부 변동을 정량화했습니다.

B. 모델 재훈련 및 평가 전략

베이스라인 검증: 기존 모델들을 그대로 사용하여 5 개 실험실 데이터에 대한 성능을 평가.
다양한 데이터셋 학습 (Fixed n): 모델의 훈련 데이터 크기를 기존과 동일하게 유지하되, 4 개 실험실의 데이터를 혼합하여 훈련시키고 나머지 1 개 실험실 (Leave-One-Lab-Out, LOLO) 로 테스트.
대규모 다양성 데이터셋 학습 (All n): 가능한 모든 데이터를 활용하여 훈련하고 LOLO 방식으로 테스트.
최종 모델: 5 개 실험실의 모든 데이터로 4 가지 모델을 최종 재훈련하여 보편적 도구로 개발.

C. 분석 지표

성능 지표: Macro F1-score, Recall, Precision 등을 사용.
일치도 분석: Cohen's Kappa 계수를 사용하여 전문가 간 (Within-lab) 및 실험실 간 (Between-lab) 일치도를 측정.
하향 분석: 수면 에피소드 길이 (Bout length), 총 수면 시간, EEG 파워 스펙트럼 등을 분석하여 라벨 변동이 하류 분석에 미치는 영향을 확인.
캘리브레이션: 수동 스코어의 확률 분포 (Hypnodensity) 와 모델 예측 확률을 비교하여 모델의 불확실성 분석.

3. 주요 결과 (Key Results)

A. 기존 모델의 일반화 실패

훈련된 실험실 외부 데이터에 대해 모델 간 성능 편차가 극심했습니다.
특히 REM 수면 인식률이 실험실마다 크게 달라졌으며, 일부 모델은 특정 수면 단계를 과도하게 예측하는 경향 (Majority class bias) 을 보였습니다.

B. 다양성 있는 데이터 학습의 효과

통계적 유의성: 단일 실험실 데이터 훈련 (Baseline) 대비, 다양한 실험실 데이터 (Fixed n 및 All n) 로 재훈련한 모델의 성능이 외부 데이터에서 통계적으로 유의미하게 향상되었습니다 ( $p < 0.001$ ).
데이터 양 vs 다양성: 데이터 양을 늘리는 것 (All n) 보다 **데이터의 다양성 (다양한 실험실 포함)**이 일반화 성능 향상에 더 결정적인 역할을 했습니다.

C. 수동 스코어링의 불일치 (Label Noise)

전문가 간 변동성: Wakefulness (각성) 에서는 높은 일치도 (Kappa ~~0.93) 를 보였으나, REM 수면에서 일치도가 가장 낮았습니다 (Kappa ~0.78~~0.93, 실험실 내 변동성도 존재).
하류 분석 영향: 수면 단계의 총 시간보다는 수면 에피소드 (Bout) 의 시작과 끝 부분에서 전문가 간 변동이 커서, 에피소드 길이 분석 결과가 수동 스코어에 따라 크게 달라질 수 있음을 발견했습니다.

D. 모델의 예측 특성

재훈련된 모델들은 수동 스코어의 불확실성 (여러 전문가가 의견이 갈리는 구간) 을 반영하여 '혼합 단계 (Mixed stages)'로 예측하는 경향을 보였습니다.
일부 모델 (SlumberNet 제외) 은 Wakefulness 를 과소평가하고 수면 단계를 과대평가하는 경향이 있었으나, 캘리브레이션 곡선을 통해 모델의 신뢰도를 평가할 수 있었습니다.

4. 주요 기여 (Key Contributions)

근본 원인 규명: 자동 수면 스코어링 모델의 일반화 실패 원인이 단순히 모델 아키텍처의 문제가 아니라, **신호 변동성과 수동 라벨링의 불일치 (Label Noise)**에 있음을 실증했습니다.
표준화된 모델 제공: 5 개 실험실의 데이터를 활용하여 재훈련된 4 가지 강력한 모델 (SPINDLE, SS-ANN, Grieger, SlumberNet) 을 공개하여, 단일 실험실 편향을 줄인 보편적 도구로 제시했습니다.
새로운 평가 패러다임 제안: 단일 실험실 내 성능이 아닌, 다양한 외부 데이터셋에 대한 일반화 능력을 모델 평가의 핵심 기준으로 삼아야 함을 강조했습니다.
Hypnodensity 활용: 수동 스코어의 불확실성을 시각화한 'Hypnodensity'와 모델 예측 확률을 비교함으로써, 모델의 불확실성과 생물학적 혼합 수면 상태를 구분할 수 있는 가능성을 제시했습니다.

5. 의의 및 결론 (Significance & Conclusion)

표준화의 필요성: 더 새로운 모델을 개발하는 것보다 마우스 수면 스코어링 가이드라인을 표준화하고, 하드웨어/실험 설정을 통일하는 것이 자동화 성공의 첫걸음임을 강조합니다.
실용적 솔루션: 합의가 완전히 이루어지기 전까지, 다양한 데이터로 훈련된 본 연구의 모델들이 실험실 간 비교를 가능하게 하는 표준 도구로 활용될 수 있습니다.
미래 방향: 모델의 불확실성을 생물학적 의미 (예: 나르코렙시 등 질병 모델에서의 혼합 수면) 와 구분하기 위한 연구가 필요하며, 이를 위해 자동 모델과 수동 스코어의 융합적 접근이 요구됩니다.

이 연구는 자동 수면 분석 분야에서 "데이터의 다양성"과 "라벨링의 표준화"가 모델 성능의 핵심 열쇠임을 명확히 보여주었습니다.

Lack of Consensus for Manual Mouse Sleep Scoring Limits Implementation of Automatic Deep Learning Models