An ancient evolutionary calculus for attention signaling retained in modern… — 쉬운 설명

원저자: Babbitt, G. A., Fokoue, E. P.

게시일 2026-04-18

📖 4 분 읽기☕ 가벼운 읽기

원저자: Babbitt, G. A., Fokoue, E. P.

원본 논문은 CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ⚕️ 이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기

🎵 핵심 아이디어: "음악은 뇌를 위한 스포츠"입니다

생각해보세요. 공원에서 누군가 뛰어다니거나, 새가 노래를 부르거나, 무용수가 춤을 추는 모습을 볼 때 왜 우리는 자연스럽게 눈을 떼지 못하나요?

연구자들은 이 현상이 약 5 억 4 천만 년 전 (캄브리아기) 에 시작되었다고 말합니다. 그때 동물들은 빠르게 움직이기 시작했고, 포식자를 피하거나 먹이를 잡기 위해 **'움직임을 예측하는 능력'**이 생존에 필수적이 되었죠.

이 논문은 음악과 춤도 사실은 그 고대 생존 본능을 자극하는 '운동'과 같다고 말합니다. 우리가 음악을 즐길 때 뇌는 "저 사람이 얼마나 잘 움직이는지, 얼마나 에너지가 넘치는지, 얼마나 놀라운 일을 하는지"를 계산하고 있는 것입니다.

📐 'CES'라는 3 가지 레시피

연구자들은 이 '주의를 끄는 힘'을 수학적으로 3 가지 요소로 나눴습니다. 이를 CES라고 부릅니다.

C (Control - 통제력/조절):
- 비유: 마술사가 공을 공중에 띄우고 있을 때, 공이 떨어지지 않고 정확히 제자리에 머무는 것.
- 의미: 소리나 움직임이 얼마나 정확하고 안정적으로 유지되는지입니다. (예: 가수가 음정을 완벽하게 맞추는 것)
E (Energy - 에너지):
- 비유: 스프링이 팽팽하게 당겨졌다가 터지는 힘, 혹은 폭포수가 떨어질 때의 굉음.
- 의미: 소리나 움직임에 담긴 힘과 속도입니다. (예: 빠른 템포, 큰 목소리)
S (Surprise - 놀라움/예측 불가능성):
- 비유: 마술사가 갑자기 공을 토끼로 바꾸거나, 예상치 못한 방향으로 공을 튕기는 것.
- 의미: 너무 예측 가능하지 않으면서도 너무 혼란스럽지 않은 '새로움'입니다. (예: 재즈의 즉흥 연주, 갑작스러운 리듬 변화)

🤖 연구 방법: 'POPSTAR'라는 인공지능 카메라

연구자들은 이 3 가지 요소를 측정하기 위해 **'POPSTAR'**라는 소프트웨어를 만들었습니다. 이 프로그램은 마치 음악을 '수학'으로 해석하는 안경 같습니다.

이 프로그램은 노래를 듣고, 그 소리가 **통제 (C), 에너지 (E), 놀라움 (S)**라는 3 개의 축으로 이루어진 삼각형 공간에서 어떻게 움직이는지 추적합니다.
마치 춤추는 사람이 무대 위에서 그리는 발자국을 지도에 찍어보듯, 음악이 이 공간에서 얼마나 '단단하게' 그리고 '의도적으로' 움직이는지를 분석합니다.

🔍 주요 발견: 무엇이 '명품' 음악을 만드는가?

이 분석을 통해 놀라운 사실들이 밝혀졌습니다.

1. '전문가'는 흔들림이 적다 (안정성)

비유: 초보자가 줄타기를 하면 몸이 많이 흔들리지만, 프로는 줄 위에서 춤을 추듯 안정적입니다.
결과: 프로 음악가나 노래 잘하는 새 (예: 나이팅게일) 는 이 'CES 공간'에서 움직일 때 흔들림이 거의 없습니다. 즉, 통제력, 에너지, 놀라움이 아주 균형 잡혀 있고 예측 가능한 패턴을 유지합니다. 반면, 초보자나 잡음 (노이즈) 은 이 공간에서 무작위로 떠돌아다닙니다.

2. 라이브와 녹음의 차이

비유: 연습실 (스튜디오) 에서 하는 연주는 완벽하게 다듬어진 '사진'이지만, 무대 (라이브) 는 관객의 반응에 따라 즉흥적으로 변하는 '실시간 드라마'입니다.
결과: 연구자들은 아이슬란드 팝스타 '비요크'의 라이브와 스튜디오 음원을 비교했습니다. 라이브에서는 관객의 반응 때문에 통제력은 조금 떨어지고 놀라움 (즉흥성) 이 더 커졌지만, 전체적인 '안정성'은 오히려 더 높았습니다. 즉, 관객 앞에서 공연할 때는 뇌가 더 집중하게 만드는 '진짜' 신호를 보내야 한다는 것이 증명되었습니다.

3. 동물도 음악가다

비유: 우리가 노래하는 것처럼, 새나 개구리, 원숭이도 짝을 유혹하기 위해 '노래'를 부릅니다.
결과: 연구 결과, **가장 복잡한 노래를 부르는 새 (예: 거문고새, 나이팅게일)**와 프로 오페라 가수는 이 'CES 안정성' 점수가 거의 비슷하거나 오히려 더 높았습니다. 이는 음악이 인간만의 것이 아니라, 생물이 서로의 능력을 과시하기 위해 진화시킨 보편적인 언어임을 보여줍니다.

4. 배경음악 vs. 솔로 연주

비유: 배경음악은 방의 분위기를 차분하게 만드는 '벽지' 같고, 협주곡은 무대 중앙에서 모든 이의 시선을 끄는 '화려한 액자' 같습니다.
결과: 솔로 연주가 중요한 클래식 협주곡은 배경음악 (Ambient music) 보다 CES 안정성이 훨씬 높았습니다. 즉, 청자의 주의를 집중시키려면 '안정된 흐름'이 필수적이라는 뜻입니다.

💡 결론: 왜 이 연구가 중요한가?

이 논문은 **"음악은 단순한 취미가 아니라, 우리 뇌가 진화 과정에서 배운 '주의를 끄는 기술'의 완성형"**이라고 말합니다.

진화의 유산: 우리가 음악을 들을 때 느끼는 설렘은, 조상이 포식자를 피하거나 짝을 구할 때 느꼈던 **'빠른 움직임에 대한 경계와 흥미'**가 현대적으로 변형된 것입니다.
현대 사회의 교훈: 오늘날 우리는 유튜브, 쇼츠, AI 가 만들어내는 자극적인 콘텐츠에 끊임없이 노출됩니다. 이 연구는 우리의 뇌가 '통제, 에너지, 놀라움'이라는 고대 공식에 반응하도록 설계되어 있음을 보여줍니다.
경고: 만약 AI 나 미디어가 이 공식을 악용해 우리의 주의를 너무 쉽게, 혹은 너무 강하게 끌면, 우리는 자신의 생각 (내면의 자아) 을 잃을 수 있습니다.

한 줄 요약:

"음악은 우리 뇌가 5 억 년 전부터 익혀온 '주목하기'의 수학 공식 (CES) 을 완벽하게 구현한 예술입니다. 프로 음악가와 잘 노래하는 새들은 이 공식을 가장 안정적으로 구사하며, 우리는 그 '안정된 흔들림'에 매료되어 집중하게 됩니다."

1. 연구 배경 및 문제 제기 (Problem)

음악의 진화적 기원과 기능: 음악의 기원과 기능에 대한 철학적, 과학적 연구는 많았으나, 음악의 질 (quality) 을 통해 개체의 적합도 (fitness) 가 어떻게 신호로 전달되는지에 대한 정확한 메커니즘은 규명되지 않았습니다.
주의 (Attention) 의 핵심 역할: 음악과 춤은 관찰자의 주의를 끄는 것을 기능적 목표로 합니다. 동물 행동학에서 공연 (display) 은 종종 개체의 질 (적합도) 을 정직하게 신호화 (honest signaling) 하는 수단입니다.
연구 가설: 저자들은 음악적 소리가 인간의 주의 네트워크를 자극하는 방식이 고대 생물 (에디아카라 - 캄브리아기 경계, 약 5.41 억 년 전) 에서 빠르게 움직이는 생물을 감지하고 추적하기 위해 발달한 '주의 미적분학 (calculus of attention)'에 기반한다고 가정합니다. 즉, 음악은 **제어 (Control), 에너지 (Energy), 놀라움 (Surprise)**이라는 세 가지 요소를 통해 진화적으로 보존된 주의 신호 체계를 따릅니다.

2. 방법론 (Methodology)

저자들은 오디오 신호를 수학적으로 분석하고 시각화하는 오픈 소스 소프트웨어 POPSTAR를 개발하여 다음과 같은 과정을 거쳤습니다.

가. 오디오 특징 추출 (Acoustic Feature Extraction)

오디오 파일을 시간 창 (sliding window) 으로 분할하여 9 가지 음향 특징을 추출하고, 이를 3 가지 주요 차원 (CES) 으로 그룹화했습니다.

제어 (Control, C):
- 피치 제어 (Pitch Control): 기대된 음계 (서양 음계 또는 EM 클러스터링) 와 실제 피치의 편차.
- 하모닉 제어 (Harmonics Control): 기본 주파수 이상으로 감지된 고조파 에너지.
- 타이밍 제어 (Timing Control): 기대된 비트 간격과 실제 비트 간격의 편차.
에너지 (Energy, E):
- 템포 (Tempo): 단위 시간당 비트 수.
- 잔향 (Reverberation): 시간 영역 오디오 신호의 자기상관 함수 (ACF) 를 통한 상관 계수.
- 진폭 (Amplitude): 오디오 신호의 크기 (볼륨).
놀라움 (Surprise, S):
- 다중 스케일 엔트로피 (Multi-scale Entropy): 신호의 복잡성 지수.
- 렘펠 - 지브 복잡도 (Lempel-Ziv Complexity): 이진 표현 내의 고유한 부분 문자열 수.
- 음표 변동성 지수 (Note Variability Index): 스펙트로그램 내 음표 간의 상관관계 기반 변동성.

나. 동적 3 분면 공간 매핑 (Dynamic Ternary Plot Mapping)

추출된 9 가지 특징을 정규화하여 **CES 3 분면 공간 (Ternary Space)**에 매핑했습니다.
각 시간 단계 $(t)$ 에서 제어 ( $C_t$ ), 에너지 ( $E_t$ ), 놀라움 ( $S_t$ ) 의 평균값을 계산하여 점 $P_t$ 를 생성하고, 이를 시간에 따라 연결하여 **음악 궤적 (Song Trajectory)**을 시각화했습니다.
Chernoff Face: 9 가지 특징을 얼굴의 눈, 입, 귀 등의 크기와 각도로 매핑하여 다변량 데이터를 직관적으로 표현했습니다.

다. 안정성 지표 (Stability Indicator) 개발

핵심 지표: 공연의 질 (적합도) 이 높을수록 CES 공간 내에서의 궤적 이동이 더 안정적이고 의도적일 것이라고 가정했습니다.
측정 방법: 실제 궤적의 단계 길이 (step length, $\delta_t$ ) 와 시간 순서를 무작위로 섞은 (shuffled) 궤적의 단계 길이 ( $\delta_{\sigma(t)}$ ) 를 비교했습니다.
안정성 계산: 실제 단계가 무작위 단계보다 짧은 비율을 계산하여 0~100% 의 안정성 지수 ( $\eta$ ) 를 도출했습니다. (높은 안정성 = 낮은 무작위성 = 높은 공연 질)

라. 비교 분석 및 통계

데이터: 인간 음악 (오페라, 재즈, 팝, Ambient), 인간/동물 발성 (새, 개구리, 영장류), 자연 소리 (노이즈).
분석 기법:
- 기능적 데이터 분석 (FDA): B-spline 함수를 사용하여 궤적 정렬 및 유사성 측정.
- 네트워크 분석: L2 거리를 기반으로 한 Kamada-Kawai 그래프를 통해 개체별 '사운드 서명 (Signature)'의 개별성 분석.
- 머신러닝: 랜덤 포레스트 (Random Forest) 를 사용하여 전문가 vs 초보자, 라이브 vs 스튜디오, 장르 분류 수행.
- 통계 검정: Kruskal-Wallis H 검정을 사용하여 그룹 간 차이 검증.

3. 주요 결과 (Key Results)

음악성과 CES 안정성의 상관관계:
- 인간이 '음악'으로 인식하는 소리는 CES 공간에서 **가장 높은 안정성 (약 60-70%)**을 보였습니다.
- 반면, 갈색 소음 (Brown noise) 은 안정성이 거의 0% 였으며, 인간 언어는 음악보다 안정성이 약 10% 낮았습니다. 이는 제안된 지표가 인간의 음악성 지각을 잘 반영함을 입증했습니다.
전문가 vs 초보자 (인간 및 동물):
- 인간: 전문 음악인 (오페라, 재즈, 팝) 은 초보자보다 CES 궤적의 안정성이 유의미하게 높았고, 제어 (Control) 는 더 높았으며 놀라움 (Surprise) 은 더 낮았습니다.
- 동물 (노란색 카나리): 성체 (전문가) 새는 immature(초보자) 새보다 CES 안정성이 유의미하게 높았습니다.
- 분류 정확도: 랜덤 포레스트 모델은 전문가와 초보자를 99% (인간) 및 93% (새) 의 정확도로 구분했습니다.
라이브 vs 스튜디오 (비교 사례: Björk):
- 라이브 공연은 스튜디오 녹음에 비해 제어 (Control) 는 높고 놀라움 (Surprise) 은 낮아 더 일관된 CES 패턴을 보였습니다. 이는 관객의 피드백이 공연자의 주의 신호를 더 안정적이고 예측 가능한 방향으로 제약 (constrain) 한다는 것을 시사합니다.
장르별 차이 (콘서트 vs 앰비언트):
- 솔로 연주자의 기교를 강조하는 피아노 콘체르토는 청취자의 공간을 강조하는 앰비언트 피아노 곡보다 CES 안정성이 유의미하게 높았습니다. 이는 '공연자의 질 (적합도)'을 강조하는 음악일수록 안정성이 높음을 의미합니다.
종 간 비교:
- 인간, 새 (노래하는 새), 개구리 (합창 개구리) 모두 CES 공간에서 높은 안정성을 보였으나, 인간 전문가는 다른 동물군보다 제어와 에너지 측면에서 더 적은 변이를 보였습니다.
- 오페라는 포유류/양서류 (개구리) 와 더 유사한 발성 구조 (후두) 를 반영하여 조류보다 개구리 발성과 더 가까운 거리를 보였습니다.

4. 주요 기여 (Key Contributions)

CES (Control-Energy-Surprise) 미적분학 프레임워크: 음악과 동물 발성을 분석하기 위해 제어, 에너지, 놀라움이라는 세 가지 진화적 요소를 수학적으로 정의하고 3 분면 공간에 매핑하는 새로운 이론적 틀을 제시했습니다.
POPSTAR 소프트웨어 개발: 오디오 파일을 입력받아 CES 궤적을 동적으로 시각화 (3 분면 도형, Chernoff Face) 하고 안정성을 정량화하는 오픈 소스 도구를 공개했습니다.
진화적 연속성 입증: 인간 음악과 다양한 동물 (새, 개구리, 영장류) 의 발성 사이에 공유되는 '주의 신호'의 수학적 패턴을 발견하여, 음악이 단순한 문화적 산물이 아닌 고대 진화적 적응 (Ediacaran-Cambrian transition) 의 산물일 가능성을 제시했습니다.
공연 질의 정량화: '안정성 (Stability)'이라는 지표를 통해 공연자의 기술적 숙련도 (전문가 vs 초보자) 와 공연 환경 (라이브 vs 스튜디오) 을 객관적으로 측정 가능하게 했습니다.

5. 의의 및 시사점 (Significance)

진화 생물학과 미학의 융합: 이 연구는 음악의 미적 요소가 뇌의 주의 네트워크 (Dorsal Attention Network) 와 자기 인식 네트워크 (Default Mode Network) 의 상호작용에 기반하며, 이는 수억 년 전 포식자 - 피식자 관계에서 발달한 '움직임 감지' 메커니즘에서 기원했을 수 있음을 시사합니다.
인공지능 (AI) 과 주의 경제: 생성형 AI 가 인간의 주의를 조작하는 데 사용될 수 있는 상황에서, '주의 미적분학'의 수학적 패턴을 이해하는 것은 인간의 인지 메커니즘을 보호하고 AI 의 과도한 자극을 방지하는 데 도움이 될 수 있습니다.
신경과학적 함의: 음악이 뇌의 외부 주의 네트워크와 내부 자기 인식 네트워크를 동시에 자극하여 복잡한 인지적 이원성 (duality) 을 만들어낸다는 가설을 제시하며, 인간 두뇌 크기 확장 (Hominid brain expansion) 의 진화적 동인에 대한 새로운 통찰을 제공합니다.

이 논문은 음악과 동물 발성을 단순한 소리가 아닌, 생물학적 적합도를 신호화하는 정교한 수학적 시스템으로 재해석함으로써, 진화 생물학, 신경과학, 음악 이론, 그리고 컴퓨터 과학을 연결하는 획기적인 접근법을 제시했습니다.

An ancient evolutionary calculus for attention signaling retained in modern music