Do Models See in Line with Human Vision? Probing the Correspondence Between LVLM Representations and EEG Signals

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (AI) 이 인간의 눈을 통해 세상을 보는 방식과, 우리 뇌가 실제로 세상을 보는 방식이 얼마나 닮았는지"**를 조사한 연구입니다.

마치 **"AI 의 두뇌와 인간의 두뇌가 같은 주파수로 진동하는지 확인하는 실험"**이라고 생각하시면 됩니다.

이 연구의 핵심 내용을 쉬운 비유와 함께 설명해 드릴게요.

1. 연구의 배경: 왜 이 실험을 했을까요?

지금까지 AI 모델 (LVLM) 이 얼마나 똑똑한지 볼 때는 주로 **fMRI(뇌 자기공명영상)**를 사용했습니다. fMRI 는 뇌의 '어떤 부분'이 활성화되었는지 아주 정교하게 보여주지만, 시간이 너무 느려서 뇌가 정보를 처리하는 '순간순간의 흐름'을 따라잡기 어렵습니다.

비유: fMRI 는 뇌의 활동을 느린 슬로우모션 사진으로 찍는 것과 같습니다. 누가 무엇을 했는지는 알 수 있지만, 그 동작이 어떻게 이어졌는지는 알기 어렵죠.

이 연구는 대신 **EEG(뇌전도)**를 사용했습니다. EEG 는 뇌의 전기 신호를 측정하는 것으로, 밀리초 (1000 분의 1 초) 단위로 뇌의 변화를 쫓을 수 있습니다.

비유: EEG 는 뇌의 활동을 고화질 실시간 영상으로 찍는 것과 같습니다. 뇌가 정보를 처리하는 '속도'와 '흐름'을 정확히 볼 수 있습니다.

2. 실험 방법: 어떻게 비교했나요?

연구진은 32 개의 다양한 AI 모델에게 사진을 보여주고, 동시에 10 명의 참가자에게 같은 사진을 보여주며 뇌파 (EEG) 를 측정했습니다.

그런 다음, AI 가 사진을 분석한 '내부 데이터'와 사람의 뇌가 사진을 보고 반응한 '뇌파 데이터'를 비교했습니다.

비유: AI 와 사람이 같은 그림을 보고, 각자의 머릿속에서 어떤 생각이 떠오르는지 노트에 적어낸 뒤, 두 노트의 내용이 얼마나 비슷한지 점수를 매기는 작업입니다.

3. 주요 발견: AI 와 인간은 얼마나 닮았을까?

이 실험을 통해 세 가지 놀라운 사실을 발견했습니다.

① AI 의 '중간 단계'가 인간과 가장 닮았다

AI 는 사진을 볼 때 여러 단계 (레이어) 를 거쳐 정보를 처리합니다. 처음에는 엣지나 색상을 보고, 나중에는 사물의 의미를 파악하죠.

발견: AI 의 **중간 단계 (8~~16 번째 층)**에서 나오는 정보가, 사람이 사진을 본 후 **100~~300 밀리초 사이**에 뇌에서 일어나는 활동과 가장 완벽하게 일치했습니다.
비유: 인간이 그림을 볼 때, "아, 저건 고양이네!"라고 생각하기 직전의 순간과 AI 가 중간 단계에서 "고양이일 가능성이 높다"고 추론하는 순간이 시간적으로 딱 맞아떨어진다는 뜻입니다.

② '크기'보다 '설계'가 중요하다

많은 사람이 "AI 가 더 크고 무거울수록 (파라미터가 많을수록) 인간과 더 비슷할 것"이라고 생각하지만, 연구 결과는 달랐습니다.

발견: 모델의 크기 (크기) 를 키우는 것보다, 멀티모달 (이미지 + 언어) 로 설계된 구조가 뇌와 더 잘 맞았습니다. 언어와 이미지를 함께 학습한 AI 가 순수하게 그림만 보는 AI 보다 인간 뇌와 훨씬 더 닮았습니다.
비유: 단순히 **머리 크기를 키우는 것 (모델 크기)**보다, **언어와 그림을 동시에 이해하도록 훈련받은 것 (설계)**이 인간처럼 생각하는 데 훨씬 더 중요합니다. 연구에 따르면 설계의 영향력이 크기 조절의 영향력보다 3.4 배나 더 컸습니다.

③ AI 가 잘할수록 뇌와 더 닮았다

AI 가 이미지 인식이나 추론 같은 실제 과제 (벤치마크) 를 잘할수록, 인간의 뇌파와도 더 높은 유사성을 보였습니다.

비유: 수학 문제를 잘 푸는 학생일수록, 인간의 사고방식과 더 닮아 있다는 뜻입니다. 즉, AI 가 인간처럼 '똑똑해지려면' 뇌와 더 닮은 방식으로 학습해야 한다는 신호를 줍니다.

4. 결론: 이 연구가 왜 중요할까요?

이 연구는 **"인공지능이 인간의 시각적 사고를 얼마나 잘 모방하고 있는지"**를 과학적으로 증명했습니다.

의미: 이제 우리는 AI 가 얼마나 '인간답게' 세상을 보는지 측정할 수 있는 새로운 기준 (뇌파 기반 평가) 을 갖게 되었습니다.
미래: 앞으로 더 똑똑하고 인간과 자연스럽게 소통하는 AI 를 만들기 위해, 이 연구 결과가 뇌과학에서 영감을 받은 AI 설계에 큰 도움을 줄 것입니다.

한 줄 요약:

"이 연구는 AI 가 그림을 볼 때 인간 뇌와 같은 '리듬'으로 움직인다는 것을 증명했고, AI 를 더 인간답게 만들려면 단순히 크기를 키우는 게 아니라 언어와 이미지를 함께 이해하도록 설계해야 함을 알려주었습니다."

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

배경: 대규모 시각 - 언어 모델 (LVLMs) 은 뛰어난 시각 이해 및 추론 능력을 보여주지만, 이러한 모델의 내부 표현이 인간의 시각 인지 (Visual Cognition) 와 얼마나 일치하는지는 아직 충분히 탐구되지 않았습니다.
기존 연구의 한계:
- 기존 뇌 - 모델 정렬 연구는 주로 fMRI(기능성 자기공명영상) 에 의존해 왔습니다. fMRI 는 공간 해상도는 높으나 시간 해상도가 낮아 (수 초 단위), 시각 처리의 역동적인 흐름을 포착하기 어렵습니다.
- 인간의 시각 인지는 시간적, 계층적으로 역동적으로 unfold 되며, 이러한 미세한 시간적 정렬을 분석하기 위해서는 밀리초 (ms) 단위의 데이터가 필요합니다.
연구 질문: LVLM 의 내부 표현이 이미지 유발 뇌파 (EEG) 신호와 정렬되는가? 만약 그렇다면 모델 아키텍처, 규모 (Scale), 이미지 유형 등 어떤 요인이 이 정렬에 영향을 미치는가?

2. 방법론 (Methodology)

이 연구는 32 개의 오픈소스 LVLM 과 THINGS-EEG 데이터셋을 활용하여 모델 표현과 인간 뇌 반응을 비교했습니다.

데이터셋:
- THINGS-EEG: 10 명의 피험자가 RSVP(Rapid Serial Visual Presentation) 패러다임으로 1,654 개의 객체 개념을 보며 기록된 대규모 뇌파 데이터.
- 모델: ViT, Qwen2.5-VL, Qwen3-VL, LLaVA-v1.5, LLaVA-Next, InternVL3/3.5, DeepSeek-VL2, SAIL-VL2 등 9 개 계열의 32 개 모델.
예측 및 정렬 기법:
- 릿지 회귀 (Ridge Regression): LVLM 의 이미지 임베딩을 EEG 신호로 선형 매핑하여 예측 정확도를 측정.
- 표현 유사성 분석 (RSA, Representational Similarity Analysis): 모델과 뇌의 표현 공간 기하학적 구조를 비교.
- 평가 지표: 피어슨 상관관계, 스피어만 순위 상관관계, CKA(Centered Kernel Alignment), RSA 점수 등.
분석 차원:
1. 예측 성능: 모델이 EEG 신호를 얼마나 잘 예측하는지.
2. 시공간 패턴: 뇌의 어떤 부위 (전두, 두정, 후두 등) 와 어떤 시간대 (0-500ms) 에서 정렬이 발생하는지.
3. 계층적 정렬: LVLM 의 각 레이어 (Layer) 가 뇌의 어떤 처리 단계와 대응되는지.
4. 카테고리 의존성: 객체 카테고리 (동물, 차량 등) 에 따른 정렬 차이 분석.

3. 주요 기여 및 발견 (Key Contributions & Results)

(1) LVLM-뇌 정렬의 구조적 발견

계층적 정렬: LVLM 의 중간 레이어 (8~16 층) 가 뇌의 100~300ms 시간 창에서 가장 높은 정렬을 보였습니다. 이는 인간의 시각 처리가 저수준 특징 (후두엽, 80-100ms) 에서 고수준 의미 처리 (측두엽/두정엽, 200-400ms) 로 이동하는 계층적 과정과 일치함을 의미합니다.
시공간 일치: 정렬 패턴은 인간 시각 경로의 시공간적 역동성 (후두엽에서 시작하여 두정엽으로 확산) 을 명확히 반영했습니다.

(2) 아키텍처 vs 모델 규모 (Architecture vs Scale)

아키텍처의 우위: 모델의 규모 (파라미터 수) 증가보다는 멀티모달 아키텍처 설계가 뇌 정렬에 훨씬 더 큰 영향을 미쳤습니다.
- 멀티모달 설계가 모델 규모 확장에 비해 3.4 배 더 많은 기여를 했습니다.
- 순수 비전 모델 (ViT) 보다 시각 - 언어 모델 (LVLM) 이 뇌 신호와 더 높은 유사성을 보였습니다.
성능 상관관계: 하류 시각 작업 (Visual Benchmarks) 에서 성능이 좋은 모델일수록 EEG 신호와의 유사성이 높았습니다. 특히 '멀티모달 생성 (Multimodal Creation)' 및 '추론 (Reasoning)' 작업과 뇌 정렬 간의 상관관계가 가장 강력했습니다 ( $R^2 \approx 0.63$ ).

(3) 카테고리별 차이

지질학적 형성물 (Geological formations) 과 양서류 (Amphibians) 와 같은 카테고리는 뇌와 모델 간 정렬이 가장 높았으며, 과일 (Fruits) 과 차량 (Vehicles) 은 상대적으로 낮았습니다. 이는 모델이 학습한 의미적 계층과 생물학적 중요도 (Salience) 가 정렬 강도에 영향을 줌을 시사합니다.

4. 의의 및 결론 (Significance & Conclusion)

생물학적 기반 벤치마크 확립: LVLM 의 성능을 평가하는 새로운 지표로 '신경 정렬 (Neural Alignment)'을 제안했습니다. 이는 단순한 작업 성능을 넘어 모델이 인간과 유사한 방식으로 시각 정보를 처리하는지 검증하는 생물학적 근거를 제공합니다.
모델 설계 지침: 모델 크기를 키우는 것보다 멀티모달 아키텍처와 학습 전략을 최적화하는 것이 인간과 유사한 시각 표현을 학습하는 데 더 중요함을 입증했습니다.
신경 영감형 AI 개발: 이러한 발견은 인간 뇌의 시각 처리 메커니즘을 모방한 차세대 AI 시스템 개발에 중요한 통찰을 제공합니다.
한계점: EEG 의 공간 해상도 한계로 인해 깊은 뇌 구조의 신호는 포착하지 못했으며, 폐쇄형 모델 (예: GPT-4V) 에 대한 평가는 수행하지 못했습니다.

요약하자면, 이 논문은 LVLM 이 단순히 이미지를 분류하는 것을 넘어, 인간의 시각 인지 과정과 시간적, 계층적으로 정렬된 표현을 학습하고 있음을 뇌파 (EEG) 데이터를 통해 최초로 체계적으로 입증했습니다.