Evaluation of Deontic Conditional Reasoning in Large Language Models: The Case of Wason's Selection Task

Each language version is independently generated for its own context, not a direct translation.

🃏 1. 실험의 핵심: "카드 뒤집기 게임" (Wason 선택 과제)

연구자들은 인공지능에게 다음과 같은 게임을 시켰습니다.

게임 규칙: "한 면에 홀수가 있으면, 다른 면에는 대문자가 있어야 한다."
카드 4 장: [7] [12] [D] [d]

이 규칙이 맞는지 확인하려면 어떤 카드를 뒤집어야 할까요?

정답: [7] (홀수인지 확인) 과 [d] (대문자가 아닌지 확인).
- 이유: 7 뒤가 대문자가 아니면 규칙 위반, d 뒤가 홀수면 규칙 위반.
사람들이 자주 하는 실수: [7] 과 [D] 를 고름.
- 이유: 규칙에 나온 '7'과 'D'라는 글자만 보고, "이거 맞네!"라고 생각해서 (확인 편향).

이 게임은 논리적으로 정답이 명확하지만, 사람들은 추상적인 숫자/문자 게임에서는 매우 못하지만, 사회적 규칙이 들어간 게임에서는 아주 잘합니다.

🏥 2. 두 가지 다른 세상: "추상적 규칙" vs "의무 규칙"

연구팀은 인공지능에게 두 가지 종류의 게임을 시켰습니다.

추상적 규칙 (Descriptive): "숫자가 소수면, 반대면은 소문자다." (숫자와 글자만 나옴)
의무 규칙 (Deontic): "피가 흘렀다면, 간호사는 장갑을 끼어야 한다." (규칙, 의무, 금지가 나옴)

🔍 실험 결과:
인공지능도 사람과 똑같았습니다!

추상적 규칙: 논리적으로 헷갈려서 틀렸습니다.
의무 규칙: "장갑을 끼라"는 규칙이 나오자마자 정답률이 뚝 떨어졌습니다. 마치 사람이 "피가 흘렀을 때 장갑을 끼는 건 당연하지!"라고 직관적으로 이해하듯, AI 도 사회적 규범이 있는 상황에서는 훨씬 똑똑해졌습니다.

💡 비유: AI 는 수학 문제를 풀 때는 계산기를 잘못 쓴 학생처럼 헤매지만, 학교 규칙이나 법률을 설명하면 엄격한 선생님처럼 완벽하게 이해합니다.

🧠 3. 왜 틀릴까? "확인 편향" vs "매칭 편향"

사람들이 왜 틀리는지, AI 도 같은 이유인지 연구팀은 두 가지 가설을 세웠습니다.

확인 편향 (Confirmation Bias): "내 가설이 맞다는 증거만 찾으려 함."
- 예: "규칙이 맞는지 확인하려면 규칙에 나온 단어 (7, D) 가 있는 카드를 봐야지!"라고 생각함.
매칭 편향 (Matching Bias): "부정 (Not) 을 무시하고 눈에 보이는 단어만 따름."
- 예: 규칙이 "피가 흘렀다면 장갑을 끼지 말아야 한다"라고 해도, '피'와 '장갑'이라는 단어만 보고 그 카드를 선택함. (부정 부호 'not'을 무시하는 것)

🎯 연구의 결론:
AI 가 틀릴 때는 '확인 편향' 때문이 아니라 '매칭 편향' 때문인 것으로 드러났습니다.

AI 는 규칙에 **"아니오 (Not)"**라는 단어가 있더라도, **눈에 보이는 단어 (피, 장갑)**에 매혹되어 그 카드를 선택하는 경향이 강했습니다.
즉, AI 는 논리적으로 '거짓'을 찾는 것보다, 눈에 보이는 단어가 규칙과 일치하는지를 먼저 확인하는 습관이 있다는 뜻입니다.

🚀 4. 이 연구가 우리에게 주는 메시지

이 논문은 단순히 "AI 가 논리 문제를 풀었다"는 것을 넘어, AI 의 두뇌가 인간과 어떻게 닮았는지를 보여줍니다.

인간과 닮은 점: AI 도 추상적인 것보다 **실생활의 규칙 (의무, 금지)**이 있을 때 훨씬 잘推理 (추론) 합니다.
인간과 닮은 실수: AI 도 우리가 자주 하는 실수인 **"부정 (Not) 을 무시하고 눈에 보이는 단어에 매몰되는 실수"**를 저지릅니다.

🌟 한 줄 요약:

"거대 인공지능은 수학 문제를 풀 때는 헷갈려도, 사회 규칙이 나오면 사람처럼 똑똑해지지만, **부정 부호 (Not)**를 볼 때는 우리 인간처럼 눈앞의 단어에만 꽂혀서 실수를 저지릅니다."

이 연구는 앞으로 AI 를 더 똑똑하게 만들려면, 단순히 데이터를 많이 넣는 것을 넘어 인간의 '규칙 인식' 방식과 '부정 처리'의 한계를 이해해야 함을 시사합니다.

Each language version is independently generated for its own context, not a direct translation.

논문 개요

이 연구는 대규모 언어 모델 (LLM) 의 추론 능력이 인간과 유사하게 **영역 특수성 (Domain Specificity)**을 보이는지, 그리고 LLM 의 오류 패턴이 인간 심리학에서 잘 알려진 **확증 편향 (Confirmation Bias)**인지 **매칭 편향 (Matching Bias)**인지 규명하기 위해 수행되었습니다. 이를 위해 인지 심리학의 표준 과제인 '웨슨 선별 과제 (Wason Selection Task)'를 활용하여, 규범적 (Deontic) 조건과 서술적 (Descriptive) 조건을 명확히 구분한 새로운 데이터셋을 구축하고 LLM 의 성능을 평가했습니다.

1. 연구 배경 및 문제 제기

배경: LLM 의 언어 능력은 비약적으로 발전했으나, 추론 능력, 특히 조건부 추론 ("if p then q") 에 있어 인간과 유사한 인지적 특성을 보이는지는 명확하지 않습니다. 인간은 추상적인 형식 논리보다는 규범 (의무, 금지 등) 이 포함된 구체적인 영역에서 추론을 더 잘 수행하는 '영역 특수성'을 보입니다.
문제점: 기존 연구들은 LLM 과 인간의 추론을 비교했으나, LLM 의 오류가 인간과 동일한 원인 (확증 편향 vs 매칭 편향) 에서 기인하는지에 대한 체계적인 비교 연구는 부족했습니다. 특히, LLM 이 부정 (Negation) 을 어떻게 처리하는지, 그리고 규범적 규칙 하에서 오류 패턴이 어떻게 달라지는지에 대한 분석이 필요했습니다.
핵심 질문:
1. LLM 도 인간처럼 규범적 (Deontic) 규칙에서 서술적 (Descriptive) 규칙보다 더 높은 추론 정확도를 보이는가?
2. LLM 의 오류 패턴은 규칙을 지지하는 증거를 찾는 '확증 편향' 때문인가, 아니면 규칙의 단어와 일치하는 항목을 선택하는 '매칭 편향' 때문인가?

2. 방법론 (Methodology)

가. 데이터셋 구축 (New Wason Selection Task Dataset)

규칙 분류: 연구진은 규칙을 두 가지 모달리티 (Modality) 로 명확히 구분했습니다.
- 규범적 규칙 (Deontic Rules): 의무 (must, need to) 나 금지 (must not, not allowed) 를 나타내는 규칙 (예: "피가 흘리면 간호사는 장갑을 끼어야 한다").
- 서술적 규칙 (Descriptive Rules): 사실적 일반화를 나타내는 규칙 (예: "카드 한 면이 홀수라면 다른 면은 대문자다").
부정 (Negation) 조작: 규칙의 전건 (Antecedent, p) 과 후건 (Consequent, q) 에 부정 부호를 포함시켜 4 가지 극성 (Polarity) 패턴을 생성했습니다.
- Pos-Pos ( $p \to q$ ), Pos-Neg ( $p \to \neg q$ ), Neg-Pos ( $\neg p \to q$ ), Neg-Neg ( $\neg p \to \neg q$ ).
데이터 구성: 총 160 개의 문제 (규범적 80 개, 서술적 80 개) 로 구성되었으며, 각 문제는 4 개의 카드와 정답 (논리적으로 반증 가능한 카드) 을 포함합니다.

나. 실험 설정

평가 모델: 추론 전용 모델 (gpt-oss, Qwen 3) 과 일반 모델 (Gemma 3, Llama 3.3, OLMo 2) 을 포함한 5 개 계열의 오픈 가중치 모델 10 개 이상을 평가했습니다.
프롬프트 전략: Zero-Shot, Few-Shot, Chain-of-Thought (CoT) 프롬프트를 모두 적용하여 성능을 비교했습니다.
평가 지표: 정답률 (Accuracy). 모델이 정확하게 모든 정답 카드를 선택하고 오답은 선택하지 않은 경우에만 정답으로 간주했습니다.

다. 편향 분석 프레임워크

확증 편향 (Confirmation Bias): 규칙이 참임을 확인하는 경우 ( $p$ 와 $q$ 가 모두 참인 경우) 를 선택하는 경향.
매칭 편향 (Matching Bias): 규칙에 명시된 단어 ( $p$ 와 $q$ ) 와 일치하는 카드를 선택하고, 부정 ( $\neg p, \neg q$ ) 을 무시하는 경향.
분석 방법: 다양한 극성 패턴에서 모델이 $p$ vs $\neg p$ , $q$ vs $\neg q$ 중 어떤 것을 선호하는지 분석하여 편향의 원인을 규명했습니다.

3. 주요 결과 (Key Results)

가. 영역 특수성 (Domain Specificity) 확인

규범적 규칙에서의 우월성: 모든 모델과 프롬프트 설정에서 **규범적 규칙 (Deontic)**에 대한 정확도가 **서술적 규칙 (Descriptive)**보다 유의미하게 높았습니다.
- 정확도 향상 폭: 5.0% ~ 41.2% 사이.
- 예시: gpt-oss-20B 모델은 Zero-Shot 설정에서 서술적 규칙 대비 규범적 규칙에서 27.5% 높은 정확도를 보였습니다.
의미: LLM 도 인간과 유사하게, 규범적 맥락 (의무/금지) 에서 조건부 추론을 더 잘 수행하는 '영역 특수성' 효과를 보입니다. 이는 모델 크기와 추론 능력 (Reasoning models vs Non-reasoning models) 에 따라 그 정도가 달라졌습니다.

나. 편향 분석: 매칭 편향의 우세

확증 편향 부재: 확증 편향이 존재한다면 $p$ 와 $q$ 가 모두 참인 경우를 선호해야 하지만, 실험 결과 $q$ (후건) 가 참인 경우보다 $\neg q$ (후건 부정) 를 선택하는 경향이 더 강하게 나타났습니다. 이는 확증 편향 가설을 지지하지 않습니다.
매칭 편향 확인: 모델들은 규칙에 명시된 단어를 부정 부호와 무관하게 선택하는 경향을 보였습니다.
- 예: 규칙이 " $\neg p \to q$ "일 때, 모델은 $p$ (부정되지 않은 형태) 대신 $\neg p$ 를 선택하기보다, 규칙에 등장하는 $p$ 와 $q$ 라는 단어가 포함된 카드를 선호했습니다.
- 특히 부정 (Negation) 이 포함된 조건에서 모델이 부정 부호를 무시하고 어휘적 일치 (Lexical match) 를 추구하는 오류가 빈번하게 관찰되었습니다.
결론: LLM 의 조건부 추론 오류는 확증 편향보다는 매칭 편향에 더 기인하며, 이는 Transformer 기반 모델이 부정 연산자를 처리하는 데 여전히 어려움을 겪고 있음을 시사합니다.

4. 주요 기여 (Contributions)

새로운 데이터셋 제안: 명시적인 규범적 모달리티 (Deontic Modality) 인코딩을 통해 규범적/서술적 규칙을 체계적으로 구분한 새로운 웨슨 선별 과제 데이터셋을 공개했습니다.
포괄적 LLM 평가: 최신 추론 전용 모델 및 일반 모델을 포함하여 다양한 모델의 조건부 추론 능력을 체계적으로 평가했습니다.
인간 - LLM 성능 병렬성 규명: LLM 도 인간과 마찬가지로 규범적 규칙에서 더 높은 성능을 보이며, 오류 패턴도 인간과 유사한 '매칭 편향'을 따름을 입증했습니다.
편향 원인 규명: LLM 의 추론 오류를 설명하는 데 있어 매칭 편향이 확증 편향보다 더 강력한 설명력을 가진다는 것을 실험적으로 증명했습니다.

5. 의의 및 시사점 (Significance)

인지 과학과 AI 의 교차점: LLM 이 단순히 통계적 패턴 매칭을 넘어, 인간의 인지적 편향 (매칭 편향) 과 유사한 메커니즘을 공유할 수 있음을 보여주었습니다.
모델 개선 방향: LLM 의 추론 능력을 향상시키기 위해서는 단순한 데이터 양의 증가뿐만 아니라, 부정 (Negation) 처리 능력과 규범적 맥락 이해를 위한 구조적 개선이나 학습 전략이 필요함을 시사합니다.
향후 연구: 이 연구는 웨슨 선별 과제를 중심으로 했으나, 향후 허가 (Permission) 와 의무 (Obligation) 에 대한 더 세분화된 분석이나 다른 유형의 조건부 추론으로 확장될 필요가 있습니다.

요약

이 논문은 LLM 이 인간과 유사하게 규범적 맥락에서 추론 성능이 향상되며, 그 오류 원인이 확증 편향이 아닌 '단어 일치'에 기반한 매칭 편향임을 규명했습니다. 이는 LLM 의 추론 메커니즘을 이해하고, 특히 부정 연산과 규범적 추론을 개선하기 위한 중요한 실마리를 제공합니다.