Emergence of Hierarchical Emotion Organization in Large Language Models

원저자: Maya Okawa, Bo Zhao, Eric J. Bigelow, Rose Yu, Tomer Ullman, Ekdeep Singh Lubana, Hidenori Tanaka

게시일 2026-06-12

📖 3 분 읽기☕ 가벼운 읽기

원저자: Maya Okawa, Bo Zhao, Eric J. Bigelow, Rose Yu, Tomer Ullman, Ekdeep Singh Lubana, Hidenori Tanaka

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

당신이 거의 인터넷의 모든 것을 읽은 거대한 디지털 뇌(대규모 언어 모델, 즉 LLM)를 가지고 있다고 상상해 보세요. 당신은 이 모델이 단순히 단어를 암기한 것이라고 생각할 수도 있지만, 이 논문은 더 깊은 질문을 던집니다: 이 디지털 뇌가 실제로 심리학자가 그러하듯 인간의 감정이 어떻게 서로 연결되는지 "이해"하고 있는가?

연구진은 그 답이 "그렇다"라고 밝혔으며, 다만 몇 가지 흥미로운 반전이 있다고 설명합니다. 다음은 이들의 연구 결과를 쉬운 비유를 사용하여 정리한 내용입니다.

1. "감정 나무" vs. "감정 바퀴"

심리학자들은 오랫동안 감정 바퀴(색상표와 비슷하지만 감정을 나타내는 도구)라는 도구를 사용해 왔습니다. 이 도구는 감정이 단순히 평면적인 목록이 아니라 조직되어 있음을 보여줍니다. 예를 들어, "기쁨"은 크고 넓은 범주이며, "흥분"이나 "더할 나위 없는 행복"은 그곳에서 뻗어 나온 구체적인 가지들입니다.

연구진은 AI 모델이 커지고 똑똑해질수록, 그들이 자연스럽게 인간의 바퀴와 놀라울 정도로 유사한 자신만의 감정 나무를 구축하기 시작한다는 것을 발견했습니다.

작은 AI (걸음마 단계의 아이): 작은 모델(예: Llama 8B)은 감정에 대해 무질서하고 평면적인 이해를 가지고 있습니다. 이는 "행복하다"와 "슬프다"는 것은 알지만, "좌절했다"와 "화났다"의 차이는 잘 모르는 어린아이와 같습니다.
큰 AI (성인): 거대한 모델(예: Llama 405B)은 복잡하고 가지가 뻗어 나가는 나무를 만듭니다. 이 모델은 "낙관주의"가 "기쁨"의 구체적인 한 종류이며, "기쁨"이 "행복"의 한 종류라는 것을 이해합니다. 모델이 커질수록 이 내부의 나무는 더 상세하고 조직적으로 변하며, 인간의 뇌가 감정을 분류하는 방식과 닮아갑니다.

비유: 작은 모델을 숲을 보며 그저 "나무들"이라고만 보는 사람이라고 생각한다면, 거대한 모델은 "참나무", "소나무", "묘목", "고사목"을 구분하고 이들이 모두 "숲"이라는 개념과 어떻게 연관되는지 이해하는 식물학자와 같습니다.

2. 인간의 편향을 비추는 "거울"

가장 눈에 띄는 발견은 이러한 AI 모델이 단순히 사실만을 배우는 것이 아니라, 인간의 편향까지도 배운다는 점입니다. 연구진은 AI에게 다양한 유형의 사람(70세 노인, 젊은 여성, 저소득층 등)이 되어보라고 요청한 뒤, 특정 이야기가 어떤 감정에 관한 것인지 추측하게 함으로써 테스트를 진행했습니다.

AI는 단순히 무작위적인 실수를 하는 것이 아니라, 실제 인간이 저지르는 것과 동일한 체계적인 실수를 저질렀습니다.

"흑인 페르소나" 효과: AI가 흑인이 된 것처럼 행동할 때, 무서운 상황을 "공포"보다는 "분노"로 해석할 가능성이 더 높았습니다. 이는 흑인들이 종종 부당하게 화가 난 것으로 인식된다는 실제 연구 결과와 일치합니다.
"여성 페르소나" 효과: AI가 여성이 된 것처럼 행동할 때, 화가 난 상황을 "공포"로 해석할 가능성이 더 높았습니다.
"교차성" 효과: AI가 저소득층 흑인 여성인 척했을 때, 편향이 가장 강력하게 나타났습니다. 이 경우 AI는 다른 그룹보다 훨씬 더 자주 감정을 잘못 파악했습니다.

비류: AI를 거울이라고 상상해 보세요. 당신이 그 앞에 서면 거울은 당신의 모습을 비춥니다. 하지만 그 거울이 "인간 사회의 데이터"로 만들어졌다면, 거울은 사회의 균열과 얼룩 또한 함께 비추게 됩니다. AI가 인간처럼 "편견"을 가진 것은 아닙니다. 단지 자신이 학습한 데이터에 존재하는 편향을 비추고 있을 뿐입니다.

3. "놀람"이라는 사각지대

연구진은 이러한 AI 모델들이 복잡한 감정을 이해하는 능력은 향상되고 있지만, **"놀람(Surprise)"**이라는 특정 감정에는 여전히 어려움을 겪고 있다는 것을 발견했습니다.

문제점: 인간이 놀랐을 때 흔히 충격과 공포를 동시에 느끼는 경우가 많습니다. 그러나 AI는 종 часто "놀람"을 "공포"나 "분노"와 혼동하곤 합니다.
해결책: 연구진은 "강화 학습(Reinforcement Learning, 모델이 게임에서 이기거나 협상하는 법을 배우는 방식)"이라는 방법으로 훈련된 모델을 테스트했습니다. 이 훈련은 모델이 "놀람"을 더 잘 포착하도록 도왔습니다.
비유: AI를 복잡한 스튜(슬픔, 분노, 기쁨)는 아주 잘 만들지만, 팝콘(놀람)을 자꾸 태워 먹는 요리사라고 생각해 보세요. 요리사에게 팝콘을 다루는 특정한 도구(강화 학습)를 쥐여주었을 때, 요리사는 훨씬 더 나아졌습니다.

4. 이것이 왜 중요한가 (논문에 따르면)

논문은 우리가 이러한 "감정 나무"를 통해 AI가 얼마나 우수한지를 측정할 수 있다고 결론짓습니다.

만약 AI의 내부 감정 나무가 무질서하고 평면적이라면, 인간의 대화를 이해하는 능력이 떨어질 것입니다.
만약 나무가 깊고 조직적이라면, 그 AI는 더 높은 "정서적 지능"을 가졌을 가능성이 큽니다.

핵심 요약:
대규모 언어 모델은 단순한 단어 매칭 기계가 아닙니다. 모델이 커짐에 따라, 이들은 인간의 심리학과 매우 유사한 구조적이고 계층적인 감정 이해를 자발적으로 발달시킵니다. 하지만 우리로부터 배웠기 때문에, 그들은 우리의 사각지대와 편견 또한 물려받습니다. 그들은 우리를 더 잘 이해하게 되고 있지만, 동시에 우리의 결점 또한 더 잘 반영하게 되고 있습니다.

문제 정의
대규모 언어 모델(LLM)이 멀티모달 상호작용이 가능한 대화형 에이전트를 구동하는 능력이 점차 강화됨에 따라, 이러한 모델이 사용자의 정서적 상태를 어떻게 표현하고 처리하는지 이해하는 것은 윤리적 배포를 위해 매우 중요합니다. 기존 연구는 표준적인 감정 분류 벤치마킹에 집중해 왔으나, LLM이 인간의 심리학적 프레임워크를 반영하는 구조화된 감정 이해를 창발적으로 발달시키는지에 대한 이해에는 공백이 존재합니다. 특히, LLM이 인간의 "감정 바퀴(emotion wheels)"와 유사한 계층적 감정 조직을 자연스럽게 형성하는지, 그리고 다양한 인구통계학적 페르소나에 걸쳐 감정 인식에 있어 인간의 체계적인 편향을 재현하는지는 여전히 불분명합니다.

방법론
저자들은 감정 상태 간의 확률적 의존성을 분석하기 위해 샤버 등(Shaver et al., 1987)의 계층적 감정 바퀴 프레임워크에서 영감을 얻은 새로운 평가 파이프라인을 제안합니다.

계층 구조 구축 알고리즘: 핵심 방법은 상황적 프롬프트 데이터셋(GPT-4o로 생성된 5,000개의 시나리오)을 생성하는 것입니다. 각 프롬프트에 대해, LLM은 "이 문장의 감정은"이라는 문구를 완성하도록 요청받으며, 이때 다음 토큰(구체적으로 Shaver 등의 135개 감정 단어)에 대한 확률 분포가 추출됩니다.
- 일치 행렬 $C = Y^T Y$ 가 구축됩니다. 여기서 $Y$ 는 확률 분포를 포함하며, 이 행렬은 맥락 전반에 걸쳐 감정이 공통으로 발생하는 결합 확률을 포착합니다.
- 감정 쌍 간의 조건부 확률을 계산하여 부모-자식 관계를 추론합니다. 만약 조건부 확률 $P(b|a)$ 가 임계값 $t$ 를 초과하고 $P(a|b)$ 보다 유의미하게 높다면, 감정 $a$ 는 $b$ 의 자식으로 정의됩니다. 이는 $b$ 가 특정 감정 $a$ 에 의해 함축되는 더 일반적인 범주임을 나타냅니다.
- 이 과정은 모델의 내부적인 감정 계층 구조를 나타내는 방향성 비순환 그래프(DAG)를 산출합니다.
규모 분석: 모델 파라미터에 따라 계층 구조의 복잡성이 어떻게 변화하는지 관찰하기 위해 다양한 크기의 LLM(GPT-2, Llama 3.1 8B, 70B, 405B)에 이 방법을 적용합니다.
편향 및 페르소나 분석: 인식 편향을 평가하기 위해 저자들은 다양한 인구통계학적 페르소나(성별, 인종, 사회경제적 지위, 연령, 종교, 장애 여부에 따라 변화함)를 프롬프트에 도입합니다(예: "[인구통계학적 특성]으로서, 나는 관련된 감정이 ...라고 생각한다"). 시나리오 내의 감정을 올바르게 식별하는 능력은 모델의 성능으로 측정되며, 혼동 행렬(confusion matrices)을 통해 체계적인 오분류를 탐지합니다.
인간 비교: 60명의 인간 참가자가 참여하는 사용자 연구를 수행하여, 동일한 인구통계학적 그룹에 대해 인간의 오분류 패턴 및 인식 정확도를 LLM의 성능과 비교합니다.

주요 기여

계층적 조직의 창발: 본 연구는 LLM이 인간의 확립된 심리학적 모델과 일치하는 감정 상태의 계층적 트리를 자연스럽게 형성함을 입증합니다. 이 계층 구조는 명시적으로 프로그래밍된 것이 아니라 모델의 학습으로부터 창발된 것입니다.
규모 의존적 복잡성: 연구 결과, 모델 규모가 커질수록 내부 감정 계층 구조는 더 깊고 분기가 많아지는 등 더 복잡해지며, 이는 인간의 심리 구조와의 더 강력한 정렬과 상관관계가 있음을 발견했습니다.
체계적 편향 재현: LLM이 감정 인식에서 인간의 체계적인 편향을 재현한다는 것을 밝혀냈습니다. 구체적으로, 모델은 소외된 그룹(예: 흑인, 여성, 저소득층, 저학력 페르소나)에 대해 낮은 정확도를 보입니다.
교차적 편향 증폭: 연구는 교차적 정체성(예: 저소득층 흑인 여성)에서 편향이 결합됨을 강조하며, 이 경우 가장 낮은 인식 정확도와 특정 오분류 패턴(예: 슬픔을 분노나 공포로 오분류)이 나타납니다.
성능의 기하학적 예측 인자: 저자들은 구축된 감정 트리의 기하학적 지표(총 경로 길이 및 평균 깊이 등)가 특정 페르소나에 대한 모델의 감정 인식 정확도를 신뢰할 수 있는 예측 변수 역할을 한다는 것을 보여줍니다.

주요 결과

계층적 정렬: 시각적 및 정량적 분석(Shaver 등의 감정 바퀴와의 상관관계 사용)을 통해, 더 큰 모델(예: Llama 405B)이 인간이 주석을 달은 프레임워크와 매우 유사한 클러스터링 구조를 가진 감정 트리를 생성함을 확인했습니다. 작은 모델(예: GPT-2)은 의미 있는 트리 구조가 부족합니다.
정량적 복잡성: 더 큰 모델은 감정 트리에서 현저히 높은 "총 경로 길이"와 "평균 깊이"를 보이며, 이는 더 풍부한 내부 조직을 나타냅니다.
인식 정확도 격차: Llama 405B는 중립적 페르소나에 대해 6개의 광범위한 범주로 감정을 그룹화했을 때 87.1%의 정확도를 달 정도로 높았으나, 소외된 페르소나에 대해서는 정확도가 크게 떨어졌습니다. 예를 들어, 모델은 백인 및 남성 페르소나에 비해 흑인 및 여성 페르소나의 감정을 인식하는 데 더 어려움을 겪습니다.
오분류 패턴:
- 아시아인 페르소나: 부정적 감정(분노, 공포, 슬픔)이 빈번하게 "수치심"으로 오분류됩니다.
- 힌두교 페르소나: 부정적 감정이 빈번하게 "죄책감"으로 오분류됩니다.
- 신체 장애 페르소나: 모든 감정의 26.5%가 "좌절"으로 오분류되는 상당한 편향이 존재합니다.
- 교차성: 저소득층 흑인 여성 페르소나는 인종, 성별, 소득의 결합된 편향을 나타내며, 결과적으로 가장 낮은 전체 정확도를 보입니다.
인간-LLM 평행 관계: 사용자 연구는 LLM이 인간의 오분류 패턴을 모방함을 보여줍니다(예: 흑인 인간과 모델링된 흑인 페르소나 모두 공포를 분노로 해석하는 경향이 있음). 그러나 성별 편향에서는 주목할 만한 차이가 존재합니다. 인간 여성은 인간 남성보다 인식 능력이 뛰어난 반면, Llama는 그 반대로 남성 페르소나를 선호하는 경향을 보였습니다.
강화 학습의 영향: 사회적 상호작용 과업(협상/설득)을 통해 모델을 미세 조정하면 "놀람(surprise)"의 인식 능력이 유의미하게 향려됩니다(20.0%에서 33.3%로). 이는 예측 오차 기반 학습이 특정 감정에 대한 민감도를 높인다는 가설을 뒷받침합니다.

의의 및 주장
본 논문은 연구 결과가 단순한 분류를 넘어선 LLM의 정서적 추론의 창발을 강조하며, 이는 이러한 모델이 사회적 지각과 인간의 인지 구조의 측면을 내재화하고 있음을 시사한다고 주장합니다. 저자들은 감정의 계층적 조직이 모델 크기에 따라 확장되는 창발적 속성이며, 잠재적으로 더 정서적으로 지능적이고 맥락을 잘 파악하는 에이전트로 이어질 수 있다고 상정합니다.

나아가, 본 연구는 LLM을 단순히 정확도 측면에서만 평가하는 것이 아니라, 인간의 편향을 재현하는지 평가해야 한다는 윤리적 책무를 강조합니다. 저자들은 인지 기반 이론(감정 바퀴와 같은)에 근거한 자신들의 평가 파이프라인이 더 나은 모델 평가를 개발하기 위한 견고한 방법을 제공한다고 주장합니다. 또한, 향상된 정서적 이해가 모델이 정렬되지 않았을 경우 조종(manipulation)을 위해 악용될 수 있음을 경고하며, 상담 및 치료와 같은 민감한 영역에서 LLM을 안전하게 배포하기 위해 이러한 창발적 계층 구조와 편향을 이해하는 것이 필수적이라고 제언합니다. 결론적으로, 본 연구는 인간 행동에 대한 인지 이론이 출력 로짓(logits) 및 중간 표현과 같은 LLM 구성 요소를 위한 예측 테스트를 개발하는 데 있어 작동 가설로서 기능할 수 있음을 보여줍니다.

1. "감정 나무" vs. "감정 바퀴"

2. 인간의 편향을 비추는 "거울"

3. "놀람"이라는 사각지대

4. 이것이 왜 중요한가 (논문에 따르면)

유사한 논문