Can LLMs Simulate Human Behavioral Variability? A Case Study in the Phonemic Fluency Task

Each language version is independently generated for its own context, not a direct translation.

🎮 실험의 핵심: 'F'로 시작하는 단어 찾기 게임

연구진들은 인간 참가자 106 명과 AI 모델 34 개를 대상으로 같은 게임을 시켰습니다.
게임 규칙: "1 분 안에 'F'로 시작하는 단어를 최대한 많이 말하세요." (예: Fire, Fish, Fun...)

이 게임은 단순히 단어를 아는 것을 넘어, **머릿속에서 단어를 찾아내는 '뇌의 작동 방식'**을 테스트하는 것입니다. 인간은 각자 다른 배경과 경험을 가지고 있어, 같은 게임이라도 누가 어떤 단어를 얼마나 다양하게 말하느냐가 다릅니다.

🔍 실험 결과: AI 는 '평균'은 잘하지만 '다양성'은 못 따라잡는다

연구진은 AI 가 인간의 **개별적인 차이 (Variability)**를 얼마나 잘 모방하는지 확인했습니다.

1. 인간 vs AI: "다양한 맛"의 차이

인간 참가자들: 106 명이 각자 다른 단어를 말했습니다. 어떤 사람은 흔한 'Fire'를 말했고, 어떤 사람은 아주 드문 'Fjord'를 말했습니다. 전체적으로 476 개의 서로 다른 단어가 나왔고, 그중 201 개는 오직 한 사람만 말한 '나만의 단어'였습니다.
- 비유: 106 명의 요리사가 각자 다른 재료를 써서 만든 요리를 모으면, 메뉴판이 매우 다양하고 색색깔로 가득 찬 뷔페가 됩니다.
AI 모델들: AI 들은 평균적으로 인간과 비슷한 수의 단어를 말했지만, 말하는 단어의 종류는 매우 제한적이었습니다. 가장 잘한 AI 가 말한 고유 단어는 226 개에 불과했고, '나만의 단어'는 73 개뿐이었습니다.
- 비유: 106 명의 요리사 (AI) 가 모두 같은 대형 식자재 창고에서 재료를 가져와서, 거의 똑같은 메뉴 (Fire, Fan, Fun 등) 만 반복해서 내놓는 것입니다. 개성이나 독특한 레시피는 찾아보기 어렵습니다.

2. 최신 모델일수록 더 똑같아졌다?

놀랍게도, 최신 AI 모델일수록 오히려 인간의 다양성이 줄어들었습니다.

Claude 3.7 Sonnet이 가장 인간과 비슷했지만, 그보다 최신인 모델들은 "생각하는 모드 (Thinking mode)"를 켜면 오히려 더 단조로워졌습니다.
비유: 요리사가 더 정교한 조리법 (Thinking mode) 을 배우면 배울수록, 오히려 "가장 안전하고 맛있는 표준 레시피"만 고집하게 되어, 실험적인 시도는 사라진 것과 같습니다.

3. AI 들끼리 섞어도 소용없었다 (앙상블 실패)

연구진은 "여러 AI 모델을 섞어서 한 명씩 뽑아주면 인간처럼 다양해지지 않을까?"라고 생각했습니다. (예: 106 명 중 1 명은 A 모델, 2 명은 B 모델이 답하게 하기)

결과: 실패했습니다. AI 모델들끼리 단어장 (어휘) 이 거의 똑같았기 때문입니다. 서로 다른 AI 가 서로 다른 답을 내놓을 것 같지만, 실제로는 모두 같은 인터넷 데이터로 훈련받아서 매우 비슷한 단어만 골라냈습니다.
비유: 서로 다른 식당 (모델) 에서 요리사를 뽑아와도, 그들이 사용하는 식자재 창고 (데이터) 가 다 똑같다면 결국 나오는 메뉴는 비슷할 수밖에 없습니다.

🧠 AI 와 인간의 '뇌'는 어떻게 다를까?

연구진은 단어들이 머릿속에서 어떻게 연결되어 있는지 네트워크 분석을 했습니다.

인간의 뇌: 단어들이 **작은 그룹 (클러스터)**으로 뭉쳐 있고, 그룹끼리 연결되는 길은 길고 복잡합니다. (예: 'F'로 시작하는 동물 -> 'Fish' -> 'Frog' -> 'Frog'와 관련된 다른 단어...)
- 비유: 인간은 마을을 돌아다니며 친구들을 만나고, 그 친구의 친구를 통해 새로운 세계로 연결되는 복잡한 길로 이동합니다.
AI 의 뇌: 단어들이 균일하게 연결되어 있어, 어디든 빠르게 이동할 수 있습니다. 하지만 그 연결 방식이 인간과는 다릅니다.
- 비유: AI 는 모든 마을이 바로 연결된 고속도로처럼, 효율적이지만 인간 특유의 '우회로'나 '작은 골목길' 같은 개성적인 연결고리가 없습니다.

💡 결론: AI 는 훌륭한 '참고서'지만 '대리인'은 될 수 없다

이 연구는 중요한 교훈을 줍니다.

AI 는 '평균'은 잘하지만 '개인'은 못 흉내 낸다: AI 는 인간이 보통 어떤 단어를 많이 쓰는지 (평균) 는 잘 알지만, 인간이 가진 개성적이고 드문 생각을 만들어내는 능력은 부족합니다.
최신 기술이 항상 좋은 건 아니다: 가장 최신 AI 가 가장 인간과 비슷하다는 보장은 없습니다. 오히려 이전 모델이 더 다양성을 보일 수도 있습니다.
연구에 사용할 때 주의할 점: 만약 연구자가 AI 를 인간 대신 실험에 쓰려 한다면, 개인의 다양성이나 독특한 행동을 연구하는 경우에는 AI 를 쓰면 안 됩니다. AI 는 이미 정해진 '표준 답안'만 내놓기 때문입니다.

한 줄 요약:

"AI 는 인간처럼 말을 잘하고, 평균적인 답도 잘 내놓지만, 인간 특유의 '다양한 개성'과 '예상치 못한 창의성'은 아직 완벽하게 흉내 낼 수 없습니다."

이 연구는 AI 가 인간을 완전히 대체할 수 있다는 기대보다는, AI 의 한계를 정확히 이해하고 적재적소에 사용해야 함을 일깨워줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 문제 (Problem)

최근 LLM 은 인지 및 행동 과학 연구에서 인간 참가자를 대체할 수 있는 도구로 주목받고 있습니다. LLM 은 대규모 훈련 데이터를 통해 "대중의 지혜 (wisdom of the crowd)"를 반영할 수 있어 평균적인 인간 행동을 모방하는 데 탁월한 성능을 보입니다. 그러나 인간 언어와 인지의 핵심 특징인 **개인 간 변이 (individual variability)**를 LLM 이 얼마나 잘 시뮬레이션할 수 있는지는 불분명합니다.
기존 연구들은 LLM 이 인간보다 언어적 다양성이 낮고, 의미 네트워크 구조가 경직되어 있음을 지적해 왔습니다. 본 연구는 이러한 한계가 의미 기반 과제뿐만 아니라, 의미보다 **형태 (orthographic/phonological form)**에 의존하는 음소 유창성 과제 (예: 'F'로 시작하는 단어를 최대한 많이 말하기) 에서도 동일하게 적용되는지, 그리고 다양한 모델 구성이나 앙상블 기법을 통해 인간 수준의 변이를 복원할 수 있는지 검증하고자 했습니다.

2. 방법론 (Methodology)

데이터 소스:
- 인간 데이터: 106 명의 원어민 영어 화자 (평균 연령 35.59 세, 평균 교육 14.92 년) 가 수행한 'F'음소 유창성 과제 데이터 (Qiu & Johns, 2021) 를 사용했습니다. 1 분 내에 'F'로 시작하는 단어를 생성하도록 지시받았으며, 고유명사나 반복 단어는 제외했습니다.
- LLM 시뮬레이션: 34 개의 서로 다른 LLM 모델 (OpenAI, Anthropic, Google, xAI, 오픈소스 모델 등) 을 평가했습니다. 각 모델은 45 가지 구성 (기본 모드, 사고 모드, 추론 수준 등) 으로 테스트되었습니다.
시뮬레이션 절차:
- 각 LLM 에게 실제 인간 참가자의 **인구통계학적 정보 (연령, 학력)**와 **성능 정보 (정답 개수)**를 포함하여 프롬프트를 제공했습니다.
- 모델은 해당 인간 참가자의 역할을 수행하여 1 분 내에 'F'로 시작하는 단어를 생성하도록 지시받았습니다.
- 총 106 명의 인간 참가자 각각에 대해 45 가지 모델 구성으로 독립적으로 106 회 실행하여 총 4,770 회 이상의 시뮬레이션을 수행했습니다.
분석 지표:
- 반응 수: 인간과 LLM 의 생성 단어 수 차이 (MAE) 분석.
- 어휘 다양성: Type-to-Token Ratio (TTR) 및 고유성 유형 비율 (ITTTR) 계산.
- 생성 빈도 분포: Zipf 법칙 (멱함수 분포) 적합도 및 스케일링 계수 ( $\alpha$ ) 분석.
- 언어적 예측 변수: 단어 빈도, 학습 시기 (AoA), 철학적 이웃 크기 (orthographic neighborhood) 등과의 상관관계 분석.
- 네트워크 분석: 단어 공발생 (co-occurrence) 기반의 네트워크 구조 (군집 계수, 평균 최단 경로) 비교.
- 앙상블 분석: 다양한 모델의 출력을 무작위로 샘플링하여 인간 수준의 다양성을 복원할 수 있는지 검증.

3. 주요 결과 (Key Results)

A. 반응 수 및 평균 성능

대부분의 모델 (45 개 중 33 개) 은 인간 참가자의 평균 반응 수 (약 16.89 개) 를 잘 모방했습니다.
그러나 일부 최신 모델 (GPT-4 Turbo, o3 등) 은 인간보다 훨씬 많은 단어를 생성하여 과잉 생산 (overproduction) 경향을 보였습니다.

B. 행동적 변이 (Behavioral Variability)의 부재

어휘 다양성: 인간 참가자는 476 개의 고유 단어 (types) 를 생성했으나, 가장 다양성이 높았던 LLM (Claude 3.7 Sonnet) 도 226 개에 그쳤습니다.
고유성 (Idiosyncrasy): 인간 데이터의 42% 가 한 참가자만 생성한 고유한 단어 (ITTTR=0.42) 였으나, LLM 은 이 수치가 0.13~0.32 수준에 머물렀습니다.
모델 진화의 역설: 최신 모델이나 '사고 (Thinking)' 모드를 활성화한 모델일수록 오히려 변이가 줄어들고 일관성 (consistency) 이 증가하는 경향을 보였습니다.

C. 생성 패턴 및 언어적 특징

Zipf 분포: LLM 은 인간과 유사한 멱함수 분포를 보였으나, 스케일링 계수 ( $\alpha$ ) 가 인간 (0.89) 보다 높게 (1.19~1.53) 나타나 상위 빈도 단어가 인간보다 훨씬 더 지배적으로 나타났습니다.
예측 변수: 인간은 철학적 이웃 크기 (orthographic neighborhood) 에 민감하게 반응했으나, LLM 은 단어 길이 (word length) 에 더 민감하게 반응했습니다. 이는 인간이 형태 기반 연상을 더 많이 사용하는 반면, LLM 은 표면적 특징에 의존함을 시사합니다.

D. 네트워크 구조 차이

군집 계수 (Clustering Coefficient): 인간 네트워크는 더 높은 군집 계수 (0.42) 를 보이며 지역적 밀집도가 높았으나, LLM (Claude 3.7 Sonnet) 은 더 낮은 군집 계수 (0.37) 를 보였습니다.
평균 최단 경로 (ASPL): 인간 네트워크는 더 긴 경로 (5.32) 를 가졌으나, LLM 은 더 짧은 경로 (4.40) 를 가져 전역적 효율성이 더 높았습니다. 이는 LLM 의 어휘 인출 구조가 인간과 근본적으로 다름을 의미합니다.

E. 앙상블 (Ensemble) 실패

여러 모델의 출력을 무작위로 섞어 다양성을 높이는 앙상블 기법을 시도했으나, 실패했습니다.
원인: 서로 다른 모델 간 **어휘 중첩 (vocabulary overlap)**이 매우 높았습니다 (평균 0.74, Anthropic 모델 내부는 0.90). 즉, 모델들이 훈련 데이터와 아키텍처의 유사성으로 인해 거의 동일한 '고빈도 핵심 어휘' 풀을 공유하고 있어, 앙상블을 해도 희귀하거나 독특한 단어 (long tail) 가 추가되지 않았습니다.

4. 주요 기여 및 의의 (Contributions & Significance)

포괄적인 모델 평가: 단일 모델이 아닌 34 개 모델, 45 가지 구성을 비교하여 LLM 의 성능 편차를 체계적으로 규명했습니다.
변이의 한계 규명: LLM 이 인간과 유사한 평균 성능은 낼 수 있으나, **개인 간 변이 (individual differences)**와 고유한 어휘 선택을 시뮬레이션하는 데 본질적인 한계가 있음을 증명했습니다.
앙상블의 무효성 입증: 단순히 여러 모델을 섞는 것만으로는 인간 수준의 다양성을 복원할 수 없으며, 이는 모델들이 공유하는 훈련 데이터와 아키텍처적 편향에 기인함을 밝혔습니다.
연구 방법론적 제언: LLM 을 인간 참가자의 직접적인 대체제로 사용하기보다는, **언어 지식의 중심 경향 (central tendency) 을 나타내는 기준선 (baseline)**으로 활용하고, 인간 행동의 독특성과 유연성을 측정하는 대조군으로 사용하는 것이 더 적절함을 주장합니다.

5. 결론

이 연구는 LLM 이 음소 유창성 과제에서 인간과 유사한 단어들을 생성할 수는 있지만, 인간의 기억 탐색 과정과 연관성 구조를 모방하지 못하며, 특히 **행동적 변이 (behavioral variability)**를 재현하는 데 실패함을 보여줍니다. 이는 LLM 을 행동 과학 연구에 사용할 때, 개인차와 다양성이 중요한 변수인 경우에는 신중한 접근이 필요함을 시사합니다.