Humans use a dual policy to improve inferences during epistemic information… — 쉬운 설명

원저자: Cao, Y., Almeras, C., Lee, J. K., Maye, I., Wyart, V.

게시일 2026-02-16

📖 3 분 읽기☕ 가벼운 읽기

원저자: Cao, Y., Almeras, C., Lee, J. K., Maye, I., Wyart, V.

원본 논문은 CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ⚕️ 이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기

🎒 핵심 주제: "알고 싶은 마음" vs "이익을 얻고 싶은 마음"

우리는 매일 수많은 선택을 합니다.

이익을 추구할 때 (MATCH 조건): "오늘 점심은 익숙한 김치찌개일까, 아니면 새로운 파스타일까?" (익숙한 걸 선택해 배를 채우는 것).
지식을 추구할 때 (GUESS 조건): "이 두 개의 가방 중 어떤 가방에 파란색 보석이 더 많을까?" (단순히 호기심을 해결하려는 것).

연구진은 사람들이 돈이나 보상이 없는 상황 (호기심만 있는 상황) 에서 정보를 어떻게 수집하는지 실험했습니다.

🌟 놀라운 발견: "연속 클릭" (Streaking) 현상

실험 결과, 사람들은 새로운 정보를 찾을 때 매우 특이한 패턴을 보였습니다. 이를 '연속 클릭 (Streaking)' 이라고 부릅니다.

비유로 설명하자면:

두 개의 미스터리 상자가 있습니다. 하나는 '파란색 보석'이 많을 것 같고, 다른 하나는 '주황색 보석'이 많을 것 같습니다.

일반적인 상식 (최적의 전략): 두 상자를 번갈아 가며 열어보며 ("한 번은 A, 한 번은 B") 어느 쪽이 더 확실한지 빠르게 판단해야 합니다.

사람들의 실제 행동: 사람들은 한 상자를 연속해서 5~6 번이나 열어봅니다. (A, A, A, A, A...) 그리고 나서야 다른 상자로 넘어갑니다. (B, B, B...)

마치 한 가지 가설을 검증하듯 "이건 파란색이 맞나? 아니, 파란색이 맞아! 확실히 해보자!" 하며 한 번에 몰아서 확인하는 것입니다.

이런 '연속 클릭'은 처음에는 비효율적으로 보일 수 있지만, 연구진은 이것이 인간 뇌의 독특한 지혜임을 발견했습니다.

🧠 왜 인간은 이렇게 할까요? (뇌의 노이즈와 비유)

인간의 뇌는 완벽한 컴퓨터가 아닙니다. 정보를 처리할 때 약간의 '소음 (노이즈)' 이나 '기억력 저하' 가 발생합니다.

비유: 비가 오는 날에 우산을 들고 길을 걷는다고 상상해보세요.
- 번갈아 걷기 (A, B, A, B): 우산을 왼쪽으로 들었다가 오른쪽으로 들기를 반복하면, 빗물이 얼굴에 튀는 것을 정확히 파악하기 어렵습니다. (정보의 소음이 섞임)
- 연속 클릭 (A, A, A, A): 한쪽 방향으로만 우산을 계속 들고 있으면, "아, 왼쪽이 훨씬 젖지 않구나!"라고 명확하게 판단할 수 있습니다.

연구에 따르면, 뇌의 처리 과정이 완벽하지 않을 때 (소음이 있을 때), 한 가설에 집중해서 정보를 모으는 '연속 클릭' 방식이 오히려 더 정확한 결론을 내게 해줍니다. 마치 안개가 낀 날, 한곳을 집중해서 바라보면 사물이 더 선명해지는 것과 같습니다.

🤖 로봇은 왜 못 할까요? (AI 와 인간의 차이)

연구진은 인공지능 (RNN) 을 훈련시켜 같은 과제를 시켰습니다.

AI 의 결과: AI 는 보상을 최대화하거나 정보를 가장 효율적으로 수집하는 '번갈아 보기' 전략을 금방 터득했습니다. 하지만 '연속 클릭' 같은 비효율적인 행동은 절대 하지 않았습니다.
의미: '연속 클릭'은 인간만이 가진 고유한 습관입니다. 이는 인간 뇌의 한계 (소음, 기억력) 를 보완하기 위해 진화한 전략일 수 있습니다. AI 는 완벽하게 계산하지만, 인간은 ' imperfect (불완전한)' 뇌를 가지고 있기 때문에 오히려 이런 독특한 전략이 더 잘 작동하는 것입니다.

🧩 성격에 따른 차이: "조급함" vs "지혜"

연구진은 참가자들의 성격과 행동 패턴을 비교했습니다.

조급한 사람 (인지적 폐쇄성 필요): 결론을 빨리 내리고 싶어 하는 사람들은 '연속 클릭'을 잘 하지 않았습니다. 대신 정보를 빨리 정리하려다 실수를 더 많이 했습니다.
지혜로운 사람 (높은 추론 능력): 논리적 사고력이 뛰어난 사람들은 '연속 클릭'을 잘 활용하면서도, 나중에 불확실한 정보를 찾아내는 능력도 뛰어났습니다.

즉, 조급함은 학습을 방해하지만, 인내심 있게 한 가설을 검증하는 습관은 더 나은 학습으로 이어집니다.

📝 한 줄 요약

"새로운 것을 배울 때, 우리는 한 가지를 몰아서 확인하는 '연속 클릭' 전략을 씁니다. 이는 비효율적으로 보일지라도, 우리 뇌의 약점 (소음) 을 보완하여 더 정확한 결론을 내게 해주는 인간만의 지혜입니다."

이 연구는 우리가 왜 때로는 비효율적으로 보이는 행동을 하는지, 그리고 그것이 실제로는 우리 뇌가 세상을 더 잘 이해하기 위해 개발한 현명한 적응 전략임을 보여줍니다.

이 논문은 인간이 보상 (reward) 과 무관한 순수한 지식 획득 (epistemic information seeking) 상황에서 정보를 수집하는 방식을 규명하고, 이를 보상 기반 탐색과 비교하여 인간 인지의 독특한 전략을 제시한 연구입니다. 아래는 논문의 기술적 요약입니다.

1. 연구 문제 (Problem)

기존의 탐색 - 활용 (explore-exploit) 딜레마 연구는 주로 보상을 극대화하기 위한 탐색에 초점을 맞추었습니다. 그러나 일상생활의 많은 학습 과정 (예: 새로운 언어 문법 습득, 낯선 도시 탐색) 은 즉각적인 보상과 무관한 '지식 획득'을 목적으로 합니다. 이러한 지식 추구 (epistemic) 상황에서 인간이 어떻게 정보를 수집하는지, 그리고 그 전략이 보상 추구 상황과 어떻게 다른지, 그리고 인공지능 (ANN) 과 인간이 이 과정에서 어떤 차이를 보이는지에 대한 체계적인 이해가 부족했습니다.

2. 방법론 (Methodology)

연구는 세 가지 주요 실험과 계산 모델링, 신경망 시뮬레이션을 결합하여 진행되었습니다.

실험 과제 설계:
- 참가자: 총 702 명 (주요 분석 420 명 포함) 의 성인 참가자.
- 과제: 두 개의 '주머니' (옵션) 에서 보석 (색상) 을 샘플링하는 순차적 샘플링 과제. 각 주머니는 특정 색상이 우세하지만 확률적 노이즈가 존재함.
- 조건 비교:
  1. MATCH 조건 (보상 추구): 특정 색상 (예: 파란색) 에 맞는 보석을 수집하여 보상을 극대화해야 함. (기존 밴딧 과제와 유사)
  2. GUESS 조건 (지식 추구): 보상은 없음. 샘플링 후 주머니의 우세한 색상을 추측해야 함. 즉, 보상은 최종 추측 정확도에만 의존하며, 샘플링 과정 자체는 보상과 무관함.
- 변수: 시퀀스 길이 (8~20 회) 를 무작위로 변경하여 예측 불가능성을 부여.
계산 모델링 (Computational Modeling):
- 노이즈가 있는 누출적 증거 누적 모델 (Noisy Leaky Evidence Accumulation Model): 인간의 행동을 설명하기 위해 개발된 모델.
  - 전역 정책 (Global Policy): 불확실성 (uncertainty) 이나 목표 일치도 (target-aligned) 에 기반한 선택.
  - 국소 정책 (Local Policy): 초기 단계에서 한 옵션을 반복적으로 샘플링하는 '스트리킹 (Streaking)' 메커니즘을 포함. 이는 임계값 ( $\theta$ ) 을 넘을 때까지 같은 옵션을 반복 ( $\epsilon$ ) 하는 규칙.
  - 학습 매개변수: 학습 노이즈 ( $\sigma$ ) 와 기억 누출 ( $\delta$ ) 을 포함하여 인간의 불완전한 정보 처리를 모델링.
인공 신경망 (RNN) 시뮬레이션:
- 동일한 과제를 수행하도록 훈련된 순환 신경망 (RNN) 을 사용하여 최적의 탐색 전략이 학습 가능한지 확인.
- 목표: 보상 극대화 (MATCH), 상태 예측 (GUESS), 그리고 메타인지 불확실성 감소 (Meta-policy GUESS) 를 목표로 훈련.
심리 측정:
- NFCS (인지적 폐쇄 필요성): 빠른 결론을 내려는 성향 측정.
- ICAR (일반 인지 능력): 추론 능력 측정.
- Big Five (5 대 성격): 개인차 분석.

3. 주요 결과 (Key Results)

이중 정책 (Dual Policy) 의 발견:
- MATCH 조건: 참가자는 보상을 극대화하기 위해 목표 색상에 가장 일치하는 옵션을 선택하는 보상 기반 탐색을 보임.
- GUESS 조건: 참가자는 불확실성이 높은 옵션을 선택하는 불확실성 기반 탐색 (Uncertainty-guided exploration) 을 보였으나, 이는 게임 초기에 스트리킹 (Streaking) 이라는 현상이 선행됨.
- 스트리킹 현상: 게임 초반 ( Trials 2-5) 에 참가자는 새로운 옵션을 발견하면 다른 옵션으로 전환하기 전에 해당 옵션을 연속적으로 여러 번 샘플링함 (예: AAAAA -> BBBBB). 이는 가설을 검증하기 위한 임시 전략으로 해석됨.
스트리킹의 기능적 이점:
- 계산 모델 시뮬레이션 결과, 스트리킹은 본질적으로 비최적 (suboptimal) 으로 보일 수 있으나, 학습 과정에 노이즈가 존재할 때 (noisy belief updating) 추론 정확도를 높이는 데 기여함.
- 초기에 한 옵션에 집중함으로써 불확실한 초기 추정을 빠르게 안정화시키고, 이후 불확실성 기반 탐색으로 전환할 때 더 정확한 결정을 내리게 함.
인간 vs 인공지능 (RNN) 의 차이:
- RNN 은 최적의 불확실성 기반 탐색 전략을 학습할 수 있었으나, 스트리킹 전략은 스스로 습득하지 못함.
- 이는 스트리킹이 단순한 최적화 결과물이 아니라, 인간의 인지적 제약 (노이즈, 계산 비용 등) 에 의해 형성된 인간 고유의 전략임을 시사.
개인차 및 심리적 특성:
- 스트리킹 경향 (EoS): 인지적 폐쇄 필요성 (NFCS) 과 부정적 상관관계 (NFCS 가 낮을수록 스트리킹이 강함). 즉, 결론을 서두르지 않는 성향이 스트리킹을 유발.
- 불확실성 기반 탐색 ( $\beta_c$ ): 일반 인지 능력 (ICAR) 과 정적 상관관계.
- 두 전략은 서로 다른 심리적 특성에 기반하며, 동시에 발현될 때 전체적인 추론 정확도가 가장 높음.

4. 주요 기여 (Key Contributions)

지식 추구 상황의 새로운 모델: 보상이 없는 순수한 지식 획득 상황에서 인간이 '스트리킹'과 '불확실성 기반 탐색'이라는 이중 정책을 사용함을 규명.
스트리킹의 적응적 가치 규명: 통계적으로 비최적으로 보이는 '스트리킹'이 인간의 노이즈가 있는 인지 시스템에서 추론 정확도를 높이는 적응적 전략임을 계산 모델링을 통해 증명.
인간과 AI 의 인지적 격차: 최적화 기반의 인공 신경망이 인간의 복잡한 정보 수집 전략 (스트리킹) 을 모방하지 못함을 보여주어, 인간 인지의 고유한 특성을 강조.
개인차의 계산적 기저 규명: 성격 특성 (NFCS) 과 인지 능력 (ICAR) 이 각각 다른 계산적 하위 과정 (국소적 스트리킹 vs 전역적 불확실성 탐색) 을 통해 행동에 영향을 미친다는 계층적 구조를 제시.

5. 의의 (Significance)

이 연구는 인간의 정보 탐색 행동을 단순한 '보상 극대화'의 관점을 넘어, 지식 획득 자체를 목표로 하는 독립적인 인지 과정으로 재정의합니다. 특히, 인간이 노이즈가 있는 환경에서 어떻게 효율적으로 학습하는지 설명하는 '스트리킹' 전략은, 인공지능의 탐색 알고리즘 설계에 새로운 통찰을 제공하며, 인간의 인지적 한계와 적응적 전략 사이의 복잡한 관계를 이해하는 데 중요한 기여를 합니다. 이는 심리학적 특성 (성격, 능력) 이 구체적인 계산적 메커니즘을 통해 어떻게 행동으로 발현되는지를 연결하는 통합적 프레임워크를 제시합니다.

Humans use a dual policy to improve inferences during epistemic information seeking