Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness

이 논문은 수학이나 코드와 같은 검증 가능한 영역에서는 추론 계산량을 늘려 성능을 향상시킬 수 있지만, 사실성 검증이 어려운 영역에서는 모델 간 오류가 강하게 상관되어 있어 다수결 전략이나 신뢰도 기반 가중치가 오히려 공유된 오개념을 강화할 뿐 진실성을 개선하지 못함을 보여줍니다.

Yegor Denisov-Blanch, Joshua Kazdan, Jessica Chudnovsky, Rylan Schaeffer, Sheng Guan, Soji Adeshina, Sanmi Koyejo

게시일 2026-03-10
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"여러 AI 가 같은 답을 말한다고 해서 그 답이 반드시 옳은 것은 아니다"**라는 놀라운 사실을 발견했습니다.

기존의 생각은 "여러 사람의 지혜를 모으면 (집단 지성) 더 똑똑해진다"는 것이었습니다. 하지만 이 연구는 AI 들이 서로 다른 생각을 가진 '사람'이 아니라, 서로 같은 실수를 하는 '쌍둥이'들이라는 점을 지적하며, 단순히 AI 를 많이 불러모으는 것만으로는 진실을 찾을 수 없다고 경고합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


🍎 핵심 비유: "동일한 교재를 본 학생들"

상상해 보세요. 시험을 치르는 학생 100 명이 있습니다.

  • 전통적인 집단 지성 (사람들): 이 학생들은 각자 다른 경험을 하고, 다른 책을 읽었습니다. A 학생은 실수할 때 실수하고, B 학생은 또 다른 실수를 합니다. 그래서 다 같이 답을 모으면, 서로의 실수가 상쇄되어 정답에 가까워집니다.
  • 이 논문의 AI 들 (동일한 교재): 이 학생들은 모두 똑같은 교재 (학습 데이터) 를 외우고, 똑같은 선생님 (목표 함수) 에게 훈련받았습니다.
    • 시험 문제에서 틀릴 때, 이 학생들은 서로 다른 실수를 하는 게 아니라, 똑같은 오답을 외워서 똑같이 틀립니다.
    • 만약 100 명 중 90 명이 "정답은 A"라고 외치고 있다면, 그 90 명은 단순히 "A 가 정답이다"라고 생각해서가 아니라, 모두가 A 를 외운 실수를 공유하고 있기 때문일 가능성이 큽니다.

이 논문은 **"AI 들이 100 명이나 모여서 'A 가 맞다'고 외쳐도, 그건 진실이 아니라 '공통된 착각'을 더 크게 부풀리는 것"**이라고 말합니다.


🔍 주요 발견 3 가지

1. "여러 명이 동의하면 정답일까?" (집단 지성의 실패)

우리는 "여러 AI 가 같은 답을 내놓으면 그 답이 맞을 확률이 높다"고 생각하기 쉽습니다. 마치 여러 친구가 "저기 저게 맛집이야"라고 하면 믿는 것과 같습니다.
하지만 이 연구는 AI 들이 틀릴 때도 서로 같은 방향으로 틀린다는 것을 발견했습니다.

  • 비유: 만약 100 명의 학생이 모두 "1+1=3"이라고 외우고 있다면, 다수결로 투표하면 "3"이 정답이 되어버립니다. AI 들은 서로 다른 실수를 하지 않기 때문에, 많은 수의 AI 가 모여도 틀린 답이 더 강력해질 뿐, 정답을 찾아내지 못합니다.

2. "자신감 = 정답?" (자신감의 함정)

AI 는 "이 답에 99% 확신합니다!"라고 말할 때가 많습니다. 우리는 "아, 이 AI 는 확신이 있으니 틀림없겠지"라고 생각하죠.
하지만 연구 결과, AI 의 자신감은 '정답'과 상관없고, '다른 AI 들이 뭐라고 할지'와 더 관련이 깊었습니다.

  • 비유: 한 학생이 "저는 1+1=3 이라고 확신해요!"라고 외친다고 해서 그 답이 맞는 게 아닙니다. 오히려 그 학생은 다른 친구들도 3 이라고 외울 거라는 것을 잘 알고 있어서 더 큰 목소리로 외치는 것입니다. AI 는 "내가 맞다"고 말하는 게 아니라, "우리 다 같이 맞다고 외치고 있어"라고 말하는 것입니다.

3. "아무것도 없는 질문에서도 같은 답을 한다" (가장 강력한 증거)

연구진은 AI 들에게 아무런 정답이 없는 무작위 문자열을 보여주고 "A, B, C, D 중 고르라"고 했습니다. 당연히 정답은 없습니다.
그런데 놀랍게도, 서로 다른 AI 모델들이 무작위인데도 서로 같은 답을 고르는 경향이 있었습니다.

  • 비유: 아무것도 없는 빈 종이를 보고 "이게 사과예요, 배예요?"라고 물었을 때, 서로 다른 AI 들이 "사과"라고 동시에 대답했다면? 그건 그 AI 들이 '사과'라는 개념을 공유하고 있기 때문이 아니라, 그들이 가진 '뇌의 구조' 자체가 비슷해서 같은 방향으로 흐르기 때문입니다.

💡 결론: 왜 이 연구가 중요한가요?

이 논문은 우리에게 AI 를 믿는 방식을 바꿔야 한다고 말합니다.

  • 기존의 생각: "AI 가 틀리면 더 많은 AI 를 불러모아서 투표하게 하거나, 더 많은 계산을 하면 정답이 나올 거야." (단순한 계산량 증가)
  • 이 논문의 결론: "아니, AI 들이 같은 실수를 공유하고 있다면, 아무리 많이 불러모아도 틀린 답만 더 크게 부풀릴 뿐이야. 진짜 정답을 찾으려면 AI 스스로의 '의견'이 아니라, 외부의 '검증자' (사실 확인, 도구 사용, 인간 확인) 가 필요하다."

한 줄 요약:

"AI 들이 다 같이 외치는 소리가 크다고 해서 그 소리가 진실은 아니다. 그들은 서로 같은 착각을 공유하는 '쌍둥이'일 뿐이니까, 진짜 진실을 찾으려면 외부에서 직접 확인해 주는 '검증자'가 필요하다."

이 연구는 AI 기술이 더 발전할수록, 단순히 "더 많은 AI 를 모으는 것"이 아니라 **"정확성을 검증할 수 있는 새로운 방법"**을 찾아야 한다는 중요한 경고를 줍니다.