Do LLMs Share Human-Like Biases? Causal Reasoning Under Prior Knowledge, Irrelevant Context, and Varying Compute Budgets

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (LLM) 이 인간처럼 '착각'을 할까, 아니면 인간보다 더 '엄격하게' 논리만 따를까?"**라는 흥미로운 질문을 던집니다.

연구자들은 20 개 이상의 최신 AI 모델들을 시험대에 올려놓고, 인간의 사고방식과 비교했습니다. 특히 **'인과관계 (원인과 결과)'**를 추론하는 상황에서 AI 가 어떻게 생각하는지, 그리고 인간이 흔히 하는 실수 (편향) 를 AI 도 반복하는지 확인했습니다.

이 복잡한 연구를 일상적인 비유로 쉽게 설명해 드릴게요.

🕵️‍♀️ 핵심 실험: "범인 찾기 게임"

연구진은 AI 와 인간에게 다음과 같은 상황을 상상하게 했습니다.

상황: 어떤 사건 (결과, E) 이 발생했습니다. 이 사건은 두 가지 원인 (C1, C2) 중 하나나 둘 다 때문에 일어날 수 있습니다.
질문: "사건이 일어났는데, C1 이 원인일 확률은 얼마나 될까요?"

이때 인간은 보통 다음과 같은 심리적 함정에 빠집니다.

약한 설명 배제 (Weak Explaining Away): "아, C1 이 원인인 것 같아. 근데 C2 도 원인일 수 있겠지? 어차피 둘 다 원인일 수 있으니 C1 이 원인일 확률을 너무 낮게 보지 말아야지." (논리적으로는 C1 이 원인일 때 C2 가 원인일 확률이 낮아져야 하는데, 인간은 이를 잘 무시합니다.)
마르코프 위반 (Markov Violation): "C2 가 원인인 것 같으니, C1 도 원인일 거야!" (원인들끼리 서로 영향을 받는 것처럼 착각합니다.)

🤖 연구 결과: AI 는 '완벽한 로봇'보다 '엄격한 학생'에 가깝습니다

1. 인간은 '열린 세상'을, AI 는 '닫힌 세상'을 봅니다.

인간: "문제가 생겼는데, 설명된 원인 (C1, C2) 말고도 알 수 없는 다른 이유가 있을 수도 있겠지?"라고 생각합니다. 그래서 주어진 정보만으로는 부족하다고 느끼고, 확신을 덜 갖습니다.
AI: "문제에 적힌 원인 (C1, C2) 만이 전부야. 그 외의 건 무시해."라고 엄격하게 규칙을 따릅니다. 인간보다 훨씬 논리적이고 일관된 규칙을 따릅니다.
- 비유: 인간은 "이 사건은 날씨 때문일 수도 있고, 누군가 실수했을 수도 있어"라며 다양한 가능성을 열어두지만, AI 는 "문제지에 날씨와 실수만 적혀 있으니, 이 두 가지만 고려해"라고 딱 잘라 말합니다.

2. 인간의 '착각'을 AI 는 하지 않습니다.

인간이 흔히 하는 '원인들끼리 서로 영향을 준다고 착각하는 실수'나 '원인 배제를 제대로 하지 않는 실수'를 AI 는 거의 하지 않았습니다.
오히려 AI 는 인간보다 훨씬 더 논리적으로 "C1 이 원인이라면 C2 는 원인일 확률이 낮아져야 해"라고 정확하게 계산했습니다.
결론: AI 는 인간처럼 '감정'이나 '직관'에 휩쓸려 실수를 하지 않습니다.

3. 하지만 AI 는 '혼란'에 약합니다. (강인함 테스트)

연구진은 AI 에게 **불필요한 잡음 (잡담)**을 섞어서 질문하거나, 추상적인 단어로 바꿔서 질문했습니다.

결과: AI 는 질문 방식이 조금만 바뀌어도 엉뚱한 답을 내놓거나 논리가 흔들렸습니다.
해결책: AI 에게 **"단계별로 생각해보라 (Chain-of-Thought)"**고 지시하면, 혼란 속에서도 다시 논리를 찾아내어 훨씬 강해졌습니다.
- 비유: AI 는 복잡한 수학 문제를 풀 때, 옆에서 "너무 많은 소리가 들려서 집중 안 돼"라고 하면 당황하지만, "일단 1 단계, 2 단계로 나누어 써봐"라고 말해주면 다시 집중해서 문제를 푼다는 뜻입니다.

4. 최신 모델은 '불변의 성'처럼 강합니다.

구형 모델은 질문이 조금만 바뀌어도 답이 뒤틀렸습니다.
하지만 **최신 모델 (예: Gemini-2.5-pro)**은 어떤 질문을 해도, 잡음이 섞여도, 추상적인 단어를 써도 일관된 답을 내놓았습니다. 마치 어떤 상황에서도 흔들리지 않는 단단한 성벽 같습니다.

💡 이 연구가 우리에게 주는 교훈

AI 는 인간을 완벽하게 모방하지 않습니다.
AI 는 인간이 가진 '직관적인 실수'나 '심리적 편향'을 그대로 가져오지 않습니다. 오히려 인간보다 더 규칙적이고 엄격하게 행동합니다.
AI 는 '불확실성'에 취약할 수 있습니다.
세상은 항상 불완전한 정보로 가득 차 있습니다. 인간은 "모르는 게 있을 수 있겠지"라고 유연하게 대처하지만, AI 는 "적힌 것만 믿어"라고 고집하다 보니, 실제 세상의 복잡한 상황에서는 오히려 실패할 수 있습니다.
안전한 사용을 위해 '생각하는 과정'이 필요합니다.
AI 를 의료나 법률 같은 중요한 일에 쓸 때는, 단순히 "답만 말해"라고 하지 말고 **"왜 그렇게 생각했는지 단계별로 설명해"**라고 요청해야 합니다. 그래야 AI 가 가장 논리적이고 강인한 모습을 보여줍니다.

📝 한 줄 요약

"인공지능은 인간처럼 감정에 휩쓸려 실수하지는 않지만, 인간처럼 유연하게 '모르는 것'을 인정하지도 못합니다. 대신 '단계별로 생각하게' 하면, 혼란 속에서도 가장 논리적인 답을 찾아내는 훌륭한 파트너가 됩니다."

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

대규모 언어 모델 (LLM) 이 법적, 의료적 등 고위험 의사결정 분야에서 인과적 추론 (Causal Reasoning) 을 필요로 하는 영역에 점차 도입되고 있습니다. 그러나 LLM 의 판단이 **규범적인 인과 계산 (Normative Causal Computation)**을 따르는지, 인간의 편향과 유사한 휴리스틱을 모방하는지, 아니면 단순히 취약한 패턴 매칭에 의존하는지는 명확하지 않습니다.

특히 실제 세계에서는 사건들의 정확한 베이스 레이트 (base rates) 가 알려져 있지 않아, 인간은 종종 휴리스틱과 사전 가정을 사용하여 편향된 추론을 합니다. 본 연구는 LLM 이 인간과 유사한 편향 (예: 약한 설명 배제, 마르코프 위반) 을 보이는지, 그리고 불완전한 정보나 잡음 (irrelevant context) 이 있는 환경에서 견고하게 추론할 수 있는지를 규명하는 것을 목표로 합니다.

2. 방법론 (Methodology)

2.1 벤치마크 및 과제

구조: 인간 인과 인지 연구의 고전적 패러다임인 **콜라이더 구조 (Collider Structure, $C1 \rightarrow E \leftarrow C2$ )**를 기반으로 11 가지 인과 판단 과제를 사용했습니다.
데이터: Rehder & Waldmann (2017) 의 실험 데이터를 기반으로 하며, 48 명의 NYU 대학생 (인간 베이스라인) 과 20 개 이상의 다양한 LLM 을 비교했습니다.
특징: 변수의 사전 확률 (priors) 과 인과 강도가 명시되지 않아 '정답'이 없는 과제로 설계되었습니다. 이는 에이전트가 어떤 가정 (prior) 을 가지고 추론하는지, 그리고 추론 전략의 일관성을 평가하기 위함입니다.
도메인: 사회학, 기상, 경제 등 3 가지 서사 (cover stories) 를 사용했습니다.

2.2 실험 조건 (Robustness Probe)

LLM 의 견고성을 평가하기 위해 3 가지 요인을 교차하여 8 가지 실험 조건을 설정했습니다:

선행 지식 (Prior Knowledge): 원본 서사 (RW17) vs. 추상화 (Abstract) (의미 있는 변수명을 무작위 문자열로 대체하여 세계 지식 의존도 감소).
정보 부하 (Information Load): 원본 프롬프트 vs. 과부하 (Overloaded) (과제와 무관한 텍스트를 삽입하여 신호 대 잡음비 저하 및 주의 분산 유도).
프롬프팅 전략: 직접 프롬프팅 (Direct) (단일 수치 답변) vs. 생각의 사슬 (Chain-of-Thought, CoT) (단계별 추론 후 답변).

2.3 분석 모델

작은 해석 가능한 모델 (Small Interpretable Model): LLM 의 판단을 압축하여 설명하기 위해 **노이즈가 있는 OR 게이트 (Noisy-OR) 를 가진 인과 베이지안 네트워크 (CBN)**를 피팅했습니다.
지표:
- BACS (Background-Adjusted Causal Strength): 명시된 인과 규칙을 얼마나 따르는지 (높을수록 규칙 준수, 낮을수록 숨겨진 배경 요인 고려).
- Explaining Away (EA) & Markov Violation (MV): 인간의 전형적인 콜라이더 편향을 정량화.

3. 주요 기여 (Key Contributions)

대규모 비교 평가: 인간 베이스라인과 20 개 이상의 LLM 을 동일한 인과 추론 벤치마크에서 비교한 최초의 광범위한 연구 중 하나입니다.
편향의 비동일성 발견: LLM 이 인간과 유사한 편향 (약한 설명 배제, 마르코프 위반) 을 공유하지 않음을 규명했습니다.
규칙 기반 추론의 특성 규명: LLM 은 인간보다 명시된 인과 규칙을 더 엄격하게 따르는 경향이 있음을 보였습니다.
도구 및 데이터 공개: 인간 베이스라인을 포함한 LLM 친화적 인과 추론 벤치마크와 프롬프트 조작을 지원하는 소프트웨어 패키지 CAUSAIIGN을 공개했습니다.

4. 주요 결과 (Key Results)

4.1 인간과의 정렬 및 판단의 합리성 (Q1)

LLM 과 인간 모두 "원인이 많을수록 결과의 확률이 높다"는 기본 인과 메커니즘을 이해하고 합리적인 판단을 내렸습니다.
CoT 의 효과: 직접 프롬프팅 시 정렬이 낮았던 모델들은 CoT 프롬프팅을 통해 인간과의 정렬 (Spearman $\rho$ ) 이 크게 향상되었습니다.

4.2 해석 가능한 모델로 인한 설명 가능성 (Q2)

CBN 적합도: LLM 의 확률 판단은 작은 인과 베이지안 네트워크 (CBN) 로 잘 설명 (압축) 될 수 있었습니다.
CoT 의 일반화: CoT 프롬프팅은 CBN 모델의 적합도 (MAE 감소) 와 교차 검증 (LOOCV $R^2$ ) 성능을 향상시켰으며, 특히 잡음이 많은 (과부하) 조건에서 추론의 일관성을 높였습니다.

4.3 규칙 준수 vs. 배경 요인 고려 (Q3)

엄격한 규칙 준수: 대부분의 LLM 은 인간보다 **높은 규칙 준수성 (High BACS)**을 보였습니다. 즉, 명시된 인과 관계만 신뢰하고 명시되지 않은 숨겨진 요인 (latent factors) 은 거의 고려하지 않았습니다.
인간의 차이: 인간은 명시된 원인이 불충분하다고 판단하여 배경 요인 (leak) 을 더 많이 고려하는 경향이 있었습니다.
CoT 의 영향: CoT 는 일부 모델의 규칙 준수를 더욱 강화하거나 인간 수준으로 조정하는 역할을 했습니다.

4.4 인간 유사 편향의 부재 (Q4)

설명 배제 (Explaining Away, EA): 인간은 종종 약한 설명 배제를 보이지만, 대부분의 LLM 은 강한 설명 배제를 나타냈습니다.
마르코프 위반 (Markov Violation, MV): 인간은 원인의 독립성을 위반하는 경향이 있지만, 대부분의 LLM 은 마르코프 조건을 준수했습니다.
결론: LLM 은 인간이 가진 전형적인 콜라이더 편향 (약한 EA + MV) 을 모방하지 않습니다.

4.5 견고성 (Q5)

모델 의존성: 견고성은 모델에 따라 크게 달랐습니다. (예: Gemini-2.5-pro 는 모든 조건에서 거의 불변이었음).
CoT 의 견고성 향상: CoT 프롬프팅은 많은 모델에서 콘텐츠 조작 (추상화, 잡음) 에 대한 견고성을 높여주었습니다.

5. 의의 및 결론 (Significance)

안전한 배포를 위한 통찰: LLM 은 인간이 가진 인지적 편향 (예: 논리적 오류) 을 공유하지 않기 때문에, 편향이 바람직하지 않은 고위험 의사결정 분야에서 인간을 보완할 수 있는 잠재력이 있습니다.
한계와 위험: 반면, LLM 의 '규칙 기반' 추론은 실제 세계의 불확실성 (명시되지 않은 요인이 중요한 상황) 이 내재된 환경에서는 취약할 수 있습니다. 인간은 맥락과 배경 지식을 유연하게 반영하지만, LLM 은 명시된 규칙에 너무 엄격하게 매여 있을 수 있습니다.
이론적 기여: 복잡한 신경망 (LLM) 의 추론 행동을 작은 베이지안 모델로 해석하고 진단할 수 있음을 보여주어, 베이지안 모델과 신경망 모델이 지능 이해에 상호 보완적임을 입증했습니다.

요약하자면, 이 연구는 LLM 이 인간과 유사한 편향을 공유하지 않으며, 오히려 더 엄격한 규칙 기반 추론을 수행함을 밝혔습니다. 이는 LLM 을 인간과 다른 방식으로 활용해야 함을 시사하며, CoT 프롬프팅이 추론의 견고성을 높이는 효과적인 전략임을 입증했습니다.