The Human Brain as a Dynamic Mixture of Expert Models in Video Understanding

원저자: Sartzetaki, C., Zonneveld, A. W., Oyarzo, P., Gifford, A. T., Cichy, R. M., Mettes, P., Groen, I. I.

게시일 2026-02-24

📖 3 분 읽기☕ 가벼운 읽기

원저자: Sartzetaki, C., Zonneveld, A. W., Oyarzo, P., Gifford, A. T., Cichy, R. M., Mettes, P., Groen, I. I.

원본 논문은 CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ⚕️ 이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기

🎬 제목: "인간의 뇌는 동영상 이해를 위해 '전문가 팀'을 부르는가?"

1. 연구의 배경: 정지된 사진 vs. 움직이는 영상

과거에 과학자들은 뇌가 정지된 사진을 볼 때 어떻게 반응하는지 많이 연구했습니다. 하지만 우리는 매일 동영상을 보며 살아갑니다. 사진은 정적이지만, 동영상은 시간이 흐르며 상황이 변하죠.
이 연구는 **"뇌가 움직이는 영상을 볼 때, AI 모델 중 어떤 것이 뇌의 생각과 가장 잘 맞을까?"**를 알아내기 위해 100 개 이상의 다양한 AI 모델들을 테스트했습니다.

2. 새로운 도구: "시간을 건너뛰는 비교기 (CT-RSA)"

기존 방법으로는 AI 가 영상을 처리하는 '순서'와 뇌가 반응하는 '순서'가 딱딱 맞아떨어지지 않아 비교가 어려웠습니다.
저희는 **'시간을 건너뛰는 비교기 (CT-RSA)'**라는 새로운 방법을 썼습니다.

비유: AI 가 영상을 1 초, 2 초, 3 초 단위로 쪼개서 분석하고, 뇌는 밀리초 단위로 반응한다고 칩시다. 이 비교기는 **"AI 가 1.5 초에 생각한 내용과 뇌가 2.0 초에 반응한 내용이 가장 비슷할까? 아니면 AI 가 0.8 초의 생각과 뇌가 1.2 초의 반응이 더 비슷할까?"**를 모든 경우의 수로 찾아내서 가장 잘 맞는 순간을 찾아냅니다. 마치 두 개의 다른 리듬을 가진 음악이 언제 가장 조화로운지 찾아내는 것과 같습니다.

3. 주요 발견: 뇌는 '한 명'의 전문가가 아니라 '팀'을 부른다

연구 결과는 놀랍습니다. 하나의 AI 모델이 전체 동영상을 이해하는 데 가장 잘 맞는 것이 아니라, 시간이 지남에 따라 뇌가 필요로 하는 '전문가'가 바뀐다는 것입니다.

🧠 뇌의 두 부위, 서로 다른 역할:

후두엽 (뒤쪽 뇌, 시각 처리 담당):
- 초반 (0~0.24 초): "무엇이 보여?"라고 물어봅니다. 정지된 사진을 보는 AI 모델과 가장 잘 맞습니다. (객체 인식)
- 중반 (0.24~0.8 초): "그게 뭐하는 거지?"라고 물어봅니다. 여전히 정지된 이미지를 잘 분석하는 AI 와 잘 맞지만, 사물의 의미 (고급 개념) 를 파악합니다.
- 후반 (0.8 초 이후): "무슨 일이 일어나고 있어?"라고 물어봅니다. 이때는 동영상을 시간 흐름에 따라 이해하는 AI 모델과 가장 잘 맞습니다. 움직임과 행동을 통합해서 이해하는 단계입니다.
- 비유: 뒤쪽 뇌는 현장 취재 기자 같습니다. 처음엔 사물을 찍고 (정지), 그다음엔 사물의 의미를 파악하고, 나중엔 그 사물이 어떻게 움직이는지 (동영상) 를 분석합니다.
전두엽 (앞쪽 뇌, 고차원 사고 담당):
- 초반에만 반응: 이 부분은 동영상의 초반부 (0.8 초 이내) 에만 활발히 반응합니다.
- 특징: 시간의 흐름보다는 **고급적인 의미 (누가 무엇을 하는지)**를 빠르게 파악합니다. 하지만 시간이 지나면 더 이상 반응하지 않습니다.
- 비유: 앞쪽 뇌는 지휘자 같습니다. 초반에 "이건 춤추는 장면이야!"라고 지시를 내리고 나면, 세부적인 움직임은 뒤쪽 기자 (후두엽) 에게 맡기고 더 이상 개입하지 않습니다.

4. 어떤 AI 모델이 가장 잘 맞을까? (기술적 발견)

SSM(상태 공간 모델) 이라는 새로운 AI: 최근 등장한 'SSM'이라는 새로운 형태의 AI 는 뇌의 중간 단계 (동작을 이해하는 단계) 에서 가장 잘 맞았습니다. 이는 뇌가 시간을 따라 정보를 이어가는 방식과 비슷하기 때문입니다.
학습 방법의 중요성:
- 초반 (사물 인식) 에는 **스스로 학습한 AI(자가 지도 학습)**가 뇌와 잘 맞았습니다.
- 후반 (동작 이해) 에는 아예 학습을 시키지 않은 상태나 특정 목적에 맞춘 학습이 더 잘 맞았습니다. 이는 뇌가 새로운 상황에 적응할 때, 미리 정해진 규칙보다는 유연한 접근을 선호한다는 것을 시사합니다.

5. 결론: 뇌는 '혼합 전문가 (Mixture of Experts)' 시스템이다

이 연구의 가장 큰 메시지는 **"인간의 뇌는 하나의 고정된 방식으로 동영상을 보지 않는다"**는 것입니다.

비유: 뇌는 변화무쌍한 프로젝트 팀과 같습니다.
- 영상이 시작되면 사진 전문가를 부릅니다.
- 사물의 의미를 파악할 때는 의미 분석 전문가를 부릅니다.
- 움직임이 중요해지면 동작 분석 전문가를 부릅니다.
- 이 모든 전문가들이 시간 순서대로 번갈아 가며 일을 하고, 그 결과로 우리는 동영상을 이해합니다.

💡 이 연구가 우리에게 주는 교훈:
지금까지의 AI 는 하나의 모델로 모든 것을 하려고 했지만, 뇌는 상황과 시간에 따라 다른 전문가 (모델) 를 동원합니다. 따라서 더 똑똑하고 효율적인 AI 를 만들려면, **"동영상의 어떤 순간에 어떤 전문가를 쓸지 dynamically(동적으로) 전환할 수 있는 시스템"**을 만들어야 합니다.

이 연구는 뇌의 작동 원리를 이해함으로써, 더 인간처럼 생각하고 움직이는 차세대 AI 를 만드는 길을 제시합니다.

1. 연구 배경 및 문제 제기 (Problem)

기존 연구의 한계: 인간의 뇌는 동적인 시각 입력을 처리하는 데 가장 효율적인 시스템입니다. 기존 모델 - 뇌 정렬 (Model-Brain Alignment) 연구는 주로 fMRI(기능적 자기공명영상) 에 기반하여 정적 이미지나 짧은 비디오를 분석했습니다. 그러나 fMRI 는 시간 해상도가 낮아 (수 초 단위) 뇌의 미세한 동적 처리 과정을 포착하는 데 한계가 있습니다.
미해결 과제: 정적 이미지 인식 연구에서 발견된 '시간적 위계 (temporal hierarchy)'가 동적인 비디오 처리에서도 동일하게 적용되는지, 그리고 뇌가 비디오의 연속적인 흐름을 어떻게 통합하는지에 대한 미세한 시간적 역동성은 아직 명확하지 않습니다.
목표: 고시간 해상도의 뇌 활동 데이터 (EEG) 를 활용하여, 다양한 비디오 이해 모델들이 동적인 뇌 반응과 어떻게 정렬되는지 대규모로 벤치마킹하고, 뇌의 처리 메커니즘을 규명하는 것입니다.

2. 방법론 (Methodology)

2.1 데이터셋 및 모델

EEG 데이터: 새로 수집된 대규모 'EEG Moments Dataset (EEGMD)'을 사용했습니다. 이는 1102 개의 짧은 자연스러운 비디오 (3 초) 를 128 개 전극으로 녹화한 데이터이며, 6 명의 참가자가 여러 번 반복하여 시청한 데이터를 포함합니다.
모델 군: 총 110 개 이상의 딥러닝 모델을 평가했습니다.
- 유형: 정적 이미지 모델 (ImageNet, Kinetics-400 훈련) vs. 시계열 통합 비디오 모델 (VideoMamba, MViT 등).
- 작업: 객체 인식 (Object Recognition) vs. 행동 인식 (Action Recognition).
- 아키텍처: CNN, Transformer, State-Space Models (SSM, 예: VisionMamba).
- 전학습 (Pretraining): 지도학습 (이미지/비디오), 자기지도학습 (Self-supervised), 무전학습 (No pretraining).

2.2 제안된 방법: Cross-Temporal Representational Similarity Analysis (CT-RSA)

기존의 RSA(Representational Similarity Analysis) 를 시간 차원으로 확장한 새로운 분석 기법입니다.

시간 전개 (Time-unfolding): 모델이 처리하는 프레임 단위의 특징과 EEG 의 밀리초 단위의 뇌 신호를 시간 축에서 모두 전개합니다.
교차 시간 정렬: 특정 EEG 시간점 ( $t_N$ ) 과 모델의 모든 시간점 ( $t_M$ ) 및 모든 층 (Layer) 간의 상관관계를 계산합니다.
최적 정렬 점수 도출: 각 EEG 시간점에서 뇌 반응과 가장 잘 일치하는 모델의 시간점과 층을 찾아 최대 정렬 점수를 추출합니다. 이를 통해 뇌가 비디오의 어떤 순간에 어떤 수준의 모델 특징과 가장 유사한지 파악할 수 있습니다.
전극 영역: 시각 피질을 덮는 후두부 (Posterior) 전극과 실행 기능과 관련된 전두부 (Frontal) 전극으로 나누어 분석했습니다.

3. 주요 결과 (Key Results)

3.1 후두부 (Posterior) 영역의 역동적 처리 단계

후두부 뇌 활동은 비디오 시청 시간에 따라 명확한 4 단계의 처리 단계를 보이며, 각 단계마다 최적의 모델 유형이 달랐습니다.

단계 I (0.06s - 0.24s): 저수준 정적 특징 처리. 정적 이미지 모델 (AlexNet 등) 이 가장 잘 정렬되며, 초기 층과 일치합니다.
단계 II (0.24s - 0.8s): 고수준 정적 객체 특징 처리. 객체 인식 모델 (DenseNet 등) 이 최상위 성능을 보이며, 후기 층과 일치합니다.
단계 III (0.8s - 2s): 중간 수준의 시간 통합 행동 특징 처리. 비디오 모델 (MViT-v2 등) 이 정적 모델보다 우세해지며, 중간 층의 시간 통합 특징이 뇌 반응과 가장 잘 일치합니다.
단계 IV (2s - 3s): 비디오 모델이 우세하지만 차이가 줄어듭니다.

시간적 대응: 후두부에서는 모델의 처리 시간과 EEG 시간 사이에 강한 시간적 대응 (Temporal Correspondence) 이 관찰되었습니다 (초기 EEG 는 초기 모델 특징과, 후기 EEG 는 후기 모델 특징과 일치).

3.2 전두부 (Frontal) 영역의 특징

전두부 활동은 비디오 시청 초기 (0.8s 이내) 에만 유의미한 정렬을 보였습니다.
정적 행동 인식 모델 (Static Action Models) 이 가장 잘 정렬되었으며, 이는 고수준의 정적 행동 의미론적 표현과 일치합니다.
후두부와 달리, 전두부에서는 모델 시간과 EEG 시간 사이에 명확한 시간적 대응이 관찰되지 않았습니다 (비디오의 역동적 흐름보다는 초기에 포착된 의미론적 정보에 반응).

3.3 아키텍처 및 전학습의 영향

State-Space Models (SSM): 중간 수준의 후두부 활동 (단계 II, III) 을 가장 잘 포착했습니다. 특히 시간 통합이 필요한 행동 인식 작업에서 SSM 이 CNN 나 Transformer 보다 우월한 정렬을 보였습니다.
전학습 (Pretraining):
- 단계 I-II (객체 중심): 자기지도학습 (Self-supervised) 전학습이 가장 유리했습니다.
- 단계 III (시간 통합 중심): 전학습을 하지 않은 모델 (No pretraining) 이 가장 잘 정렬되었습니다. 이는 전학습 과정에서 발생하는 편향된 패턴 학습 (shortcut learning) 을 피함으로써 동적인 비디오 특징을 더 잘 포착할 수 있음을 시사합니다.

4. 핵심 기여 및 통찰 (Contributions & Insights)

최초 대규모 EEG 벤치마킹: 정적 이미지가 아닌 자연스러운 동적 비디오에 대한 대규모 모델 - 뇌 정렬 벤치마킹을 최초로 수행했습니다.
동적 전문가 혼합체 (Dynamic Mixture of Experts) 가설:
- 뇌는 비디오 처리 동안 단일 모델 유형으로 고정되지 않습니다.
- 대신, 동적 전문가 혼합체 (Dynamic Mixture of Experts) 처럼 시간에 따라 최적의 처리 전략을 전환합니다.
  - 초기: 정적 객체 인식 (Static Object Processing)
  - 후기: 시간 통합 행동 처리 (Temporally-integrative Action Processing)
- 후두부는 역동적인 특징 통합을, 전두부는 초기 고수준 의미론적 정보를 담당하는 것으로 보입니다.
시간적 위계의 재해석: 기존 정적 이미지 연구에서 제안된 단순한 시간적 위계 (저수준 $\to$ 고수준) 를 넘어, 비디오 처리에서는 중간 수준의 시간 통합 특징이 후기 단계에서 지배적임을 발견했습니다.
모델 설계에 대한 시사점:
- 단일 모델이 전체 비디오 시간 동안 뇌와 완벽하게 정렬되려면, 객체 인식과 행동 인식, 정적 및 시간 통합 처리를 모두 수행할 수 있는 일반적인 목적 (Self-supervised) 으로 훈련된 후, 동적으로 전문가 (Expert) 를 전환할 수 있는 아키텍처가 필요합니다.
- 순환 신경망 (RNN) 이나 SSM 과 같은 순차적 처리 아키텍처가 이러한 뇌의 동적 특성을 모방하는 데 유리할 수 있음을 시사합니다.

5. 의의 및 결론 (Significance)

이 연구는 컴퓨터 비전 모델과 인간 뇌의 인지 메커니즘 간의 관계를 심층적으로 규명했습니다. 특히, CT-RSA를 통해 뇌가 비디오를 처리할 때 고정된 위계 구조가 아니라, 시간에 따라 변화하는 역동적인 처리 전략을 사용한다는 점을 밝혔습니다.

이는 인공지능 모델 개발에 중요한 방향성을 제시합니다. 즉, 단순히 더 많은 데이터나 더 깊은 네트워크를 쌓는 것을 넘어, 뇌처럼 상황에 따라 처리 전략을 동적으로 전환 (Dynamic Switching) 할 수 있는 아키텍처를 설계해야 인간과 유사한 효율적이고 강력한 비디오 이해 능력을 달성할 수 있음을 보여줍니다. 이는 뇌 영감을 받은 학습 (Brain-inspired Learning) 과 효율적인 AI 모델 설계의 새로운 패러다임을 제시합니다.