Failing to Falsify: Evaluating and Mitigating Confirmation Bias in Language Models

이 논문은 대규모 언어 모델 (LLM) 이 인간과 유사한 확인 편향을 보이며 가설 탐색 능력을 저해한다는 사실을 규명하고, 인간 심리학에서 개발된 개입 전략을 적용하여 이를 완화하고 추론 성능을 향상시킬 수 있음을 입증합니다.

Ayush Rajesh Jhaveri, Anthony GX-Chen, Ilia Sucholutsky, Eunsol Choi

게시일 2026-04-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 1. 문제: "맞는 증거만 찾는 탐정" (확증 편향)

상상해 보세요. 여러분이 어떤 비밀스러운 규칙을 찾아야 하는 게임에 참여했다고 칩시다.

  • 시작: "2, 4, 6"이라는 숫자 세 개가 규칙에 맞다고 알려줍니다.
  • 추측: 여러분은 "아마도 짝수일 거야!"라고 추측합니다.
  • 실수 (확증 편향): 이때 여러분은 "8, 10, 12"를 시험해 봅니다. 결과는 "맞습니다 (YES)"입니다. 여러분은 기뻐하며 "봐! 내 말이 맞았잖아!"라고 생각합니다.
  • 진짜 규칙: 사실 이 게임의 진짜 규칙은 "오르막 (증가하는) 숫자"였습니다. "2, 4, 6"도 맞고, "8, 10, 12"도 맞지만, "1, 2, 3"도 맞습니다.
  • 결과: 여러분은 '짝수'라는 틀린 규칙을 고집하며, '1, 2, 3'처럼 내 추측을 반박할 수 있는 숫자를 시도해 보지 않았습니다. 그래서 진짜 규칙을 찾지 못하고 게임에 졌습니다.

이게 바로 **확증 편향 (Confirmation Bias)**입니다. 자신의 믿음을 확인해 주는 '예 (YES)'만 찾고, 믿음을 깨뜨릴 수 있는 '아니오 (NO)'를 피하는 성향입니다.

이 연구는 **인공지능 (LLM) 도 똑같은 실수를 하는가?**를 확인했습니다.

🤖 2. 실험 결과: AI 도 인간처럼 실수했다

연구진은 다양한 크기의 AI 모델 11 개를 이 게임에 시켰습니다. 결과는 충격적이었습니다.

  • AI 의 행동: AI 도 인간처럼, 자신이 추측한 규칙을 '확인'해 주는 숫자만 계속 던졌습니다.
  • 결과: AI 가 진짜 규칙을 찾아낸 확률은 매우 낮았습니다 (평균 42% 미만). 특히 "생각하는 과정 (추론) 을 거치는" 최신 AI 일수록 이 편향이 덜했지만, 여전히 인간처럼 '틀림을 확인하는 시도'를 기피했습니다.
  • 교훈: AI 가 똑똑해졌다고 해서, '틀릴까 봐 두려워해서' 새로운 시도를 안 하는 습관은 사라지지 않았습니다.

💡 3. 해결책: "거꾸로 생각하기" 훈련

그럼 어떻게 고칠까요? 연구진은 인간 심리학에서 쓰던 두 가지 '약'을 AI 에게 먹여보았습니다.

  1. 상상력 훈련 (Think-in-Opposites): "네가 지금 '짝수'라고 생각했잖아? 그럼 반대인 '홀수'를 한번 넣어봐. 만약 홀수도 규칙에 맞다면, 너의 '짝수' 가설은 틀린 거야!"라고 AI 에게 지시했습니다.
  2. 두 가지 목표 (Dual-Goal): "정답 (DAX) 을 찾는 것뿐만 아니라, **정답이 아닌 것 (MED)**을 찾아내는 것도 동시에 해봐!"라고 시켰습니다.

결과: 이 지시 (프롬프트) 를 주니 AI 의 실수가 크게 줄었습니다!

  • 규칙을 찾아낸 확률이 42% 에서 56% 로 크게 올랐습니다.
  • AI 가 "아, 내 생각이 틀렸을 수도 있구나"라고 생각하며 반대되는 숫자를 던지는 횟수가 늘어났습니다.

🧬 4. 영구적인 해결: AI 의 뇌에 '약'을 주입하다 (지식 증류)

하지만 매번 "거꾸로 생각해!"라고 지시하는 건 귀찮습니다. 연구진은 더 멋진 방법을 썼습니다.

  • 비유: AI 가 '거꾸로 생각하기'를 잘하는 모습을 보고, 그 행동 패턴을 AI 의 뇌 (모델) 자체에 새겨 넣는 것입니다. 마치 유전자를 편집하듯, AI 가 스스로 반박적인 실험을 하도록 '학습'시킨 거죠.
  • 효과: 이제 AI 는 지시 없이도 스스로 "내 가설이 틀릴 수 있으니, 반대되는 것을 시험해 봐야겠다"라고 생각하게 되었습니다.
  • 확장성: 숫자 게임에서 배운 이 '바른 사고방식'이 완전히 새로운 게임 (물체와 기계의 관계를 찾는 '블리켓 테스트') 에도 적용되었습니다. AI 는 새로운 상황에서도 편향을 줄이고 더 잘 풀었습니다.

🌟 5. 결론: 왜 이 연구가 중요한가?

이 연구는 우리에게 중요한 메시지를 줍니다.

  1. AI 는 인간과 비슷하다: AI 도 우리가 가진 심리적 약점 (확증 편향) 을 그대로 가지고 있습니다.
  2. 고칠 수 있다: 인간의 심리학 지식을 AI 에게 적용하면, AI 가 더 똑똑하고 논리적으로 생각할 수 있습니다.
  3. 미래의 AI: 우리는 AI 에게 단순히 "정답을 알려줘"라고 시키는 것을 넘어, **"틀릴 수 있음을 인정하고 검증하는 방법"**을 가르쳐야 더 신뢰할 수 있는 AI 를 만들 수 있습니다.

한 줄 요약:

"AI 가 '내 말이 맞다'는 증거만 찾다가 미친 듯이 헤매는 것을 막기 위해, '틀릴 수도 있다'는 생각을 AI 의 뇌에 심어주니, AI 가 훨씬 똑똑해졌다!"

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →