Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"여러 AI 가 같은 답을 말한다고 해서 그 답이 반드시 옳은 것은 아니다"**라는 놀라운 사실을 발견했습니다.

기존의 생각은 "여러 사람의 지혜를 모으면 (집단 지성) 더 똑똑해진다"는 것이었습니다. 하지만 이 연구는 AI 들이 서로 다른 생각을 가진 '사람'이 아니라, 서로 같은 실수를 하는 '쌍둥이'들이라는 점을 지적하며, 단순히 AI 를 많이 불러모으는 것만으로는 진실을 찾을 수 없다고 경고합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

🍎 핵심 비유: "동일한 교재를 본 학생들"

상상해 보세요. 시험을 치르는 학생 100 명이 있습니다.

전통적인 집단 지성 (사람들): 이 학생들은 각자 다른 경험을 하고, 다른 책을 읽었습니다. A 학생은 실수할 때 실수하고, B 학생은 또 다른 실수를 합니다. 그래서 다 같이 답을 모으면, 서로의 실수가 상쇄되어 정답에 가까워집니다.
이 논문의 AI 들 (동일한 교재): 이 학생들은 모두 똑같은 교재 (학습 데이터) 를 외우고, 똑같은 선생님 (목표 함수) 에게 훈련받았습니다.
- 시험 문제에서 틀릴 때, 이 학생들은 서로 다른 실수를 하는 게 아니라, 똑같은 오답을 외워서 똑같이 틀립니다.
- 만약 100 명 중 90 명이 "정답은 A"라고 외치고 있다면, 그 90 명은 단순히 "A 가 정답이다"라고 생각해서가 아니라, 모두가 A 를 외운 실수를 공유하고 있기 때문일 가능성이 큽니다.

이 논문은 **"AI 들이 100 명이나 모여서 'A 가 맞다'고 외쳐도, 그건 진실이 아니라 '공통된 착각'을 더 크게 부풀리는 것"**이라고 말합니다.

🔍 주요 발견 3 가지

1. "여러 명이 동의하면 정답일까?" (집단 지성의 실패)

우리는 "여러 AI 가 같은 답을 내놓으면 그 답이 맞을 확률이 높다"고 생각하기 쉽습니다. 마치 여러 친구가 "저기 저게 맛집이야"라고 하면 믿는 것과 같습니다.
하지만 이 연구는 AI 들이 틀릴 때도 서로 같은 방향으로 틀린다는 것을 발견했습니다.

비유: 만약 100 명의 학생이 모두 "1+1=3"이라고 외우고 있다면, 다수결로 투표하면 "3"이 정답이 되어버립니다. AI 들은 서로 다른 실수를 하지 않기 때문에, 많은 수의 AI 가 모여도 틀린 답이 더 강력해질 뿐, 정답을 찾아내지 못합니다.

2. "자신감 = 정답?" (자신감의 함정)

AI 는 "이 답에 99% 확신합니다!"라고 말할 때가 많습니다. 우리는 "아, 이 AI 는 확신이 있으니 틀림없겠지"라고 생각하죠.
하지만 연구 결과, AI 의 자신감은 '정답'과 상관없고, '다른 AI 들이 뭐라고 할지'와 더 관련이 깊었습니다.

비유: 한 학생이 "저는 1+1=3 이라고 확신해요!"라고 외친다고 해서 그 답이 맞는 게 아닙니다. 오히려 그 학생은 다른 친구들도 3 이라고 외울 거라는 것을 잘 알고 있어서 더 큰 목소리로 외치는 것입니다. AI 는 "내가 맞다"고 말하는 게 아니라, "우리 다 같이 맞다고 외치고 있어"라고 말하는 것입니다.

3. "아무것도 없는 질문에서도 같은 답을 한다" (가장 강력한 증거)

연구진은 AI 들에게 아무런 정답이 없는 무작위 문자열을 보여주고 "A, B, C, D 중 고르라"고 했습니다. 당연히 정답은 없습니다.
그런데 놀랍게도, 서로 다른 AI 모델들이 무작위인데도 서로 같은 답을 고르는 경향이 있었습니다.

비유: 아무것도 없는 빈 종이를 보고 "이게 사과예요, 배예요?"라고 물었을 때, 서로 다른 AI 들이 "사과"라고 동시에 대답했다면? 그건 그 AI 들이 '사과'라는 개념을 공유하고 있기 때문이 아니라, 그들이 가진 '뇌의 구조' 자체가 비슷해서 같은 방향으로 흐르기 때문입니다.

💡 결론: 왜 이 연구가 중요한가요?

이 논문은 우리에게 AI 를 믿는 방식을 바꿔야 한다고 말합니다.

기존의 생각: "AI 가 틀리면 더 많은 AI 를 불러모아서 투표하게 하거나, 더 많은 계산을 하면 정답이 나올 거야." (단순한 계산량 증가)
이 논문의 결론: "아니, AI 들이 같은 실수를 공유하고 있다면, 아무리 많이 불러모아도 틀린 답만 더 크게 부풀릴 뿐이야. 진짜 정답을 찾으려면 AI 스스로의 '의견'이 아니라, 외부의 '검증자' (사실 확인, 도구 사용, 인간 확인) 가 필요하다."

한 줄 요약:

"AI 들이 다 같이 외치는 소리가 크다고 해서 그 소리가 진실은 아니다. 그들은 서로 같은 착각을 공유하는 '쌍둥이'일 뿐이니까, 진짜 진실을 찾으려면 외부에서 직접 확인해 주는 '검증자'가 필요하다."

이 연구는 AI 기술이 더 발전할수록, 단순히 "더 많은 AI 를 모으는 것"이 아니라 **"정확성을 검증할 수 있는 새로운 방법"**을 찾아야 한다는 중요한 경고를 줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

배경: 최근 대규모 언어 모델 (LLM) 의 성능 향상은 파라미터 스케일링 대신 **추론 시간 스케일링 (Inference-time scaling)**을 통해 이루어지고 있습니다. 수학과 코드와 같이 **외부 검증자 (Verifier)**가 존재하는 분야에서는 여러 후보 답변을 생성하고 검증하여 정답을 필터링하는 방식 (예: Self-consistency, Pass@k) 이 매우 효과적입니다.
문제 제기: 검증자가 없는 분야 (사실적 지식, 상식 추론, 예측 등) 에서도 추론 비용을 늘려 여러 샘플을 생성하고 이를 집계 (Aggregation) 하면 진실성 (Truthfulness) 이 향상될까요?
가설: "군중의 지혜 (Wisdom of Crowds)" 이론에 따르면, 개별적인 오류가 무작위적이고 독립적이라면 다수의 불완전한 판단을 집계하면 진실을 복원할 수 있습니다. 따라서 LLM 들의 여러 샘플을 모아 다수결이나 신뢰도 가중치 등을 적용하면 정답률을 높일 수 있을 것이라는 직관이 존재합니다.
핵심 질문: 검증자가 없는 환경에서 LLM 의 오류가 독립적인가? 만약 그렇다면 집계 전략이 진실성을 향상시킬 수 있는가?

2. 연구 방법론 (Methodology)

저자들은 5 개의 오픈소스 모델 (Gemma, GPT-oss, Qwen 등) 과 4 개의 벤치마크를 사용하여 다양한 집계 전략을 평가했습니다.

벤치마크 (검증자 부재 환경):
- Com2Sense: 이진 상식 추론.
- Humanity's Last Exam (HLE): 전문가 수준의 질문 (이진 구조로 제한).
- BoolQ: 이진 사실 기반 질문 답변.
- Predict-the-Future: 모델의 지식 컷오프 이후의 사건을 예측하는 과제 (모든 정답은 수동으로 검증됨).
샘플링 프로토콜:
- 각 질문당 모델당 25 개의 독립적인 샘플을 수집 (온도 $T \in \{0.7, 1.0\}$ ).
- 내부 군중 (Intra-model): 단일 모델의 반복 샘플링.
- 외부 군중 (Inter-model): 5 개 모델의 응답을 통합 (질문당 125 표).
평가된 집계 전략 (5 가지):
1. 다수결 투표 (Majority Vote): 가장 많은 답변 선택.
2. 최고 신뢰도 (Highest Confidence): 모델이 가장 확신하는 답변 선택.
3. 신뢰도 가중 투표 (Confidence-Weighted Vote).
4. 예측 인기 가중 투표 (Prediction-Weighted Vote): 모델이 예측한 대중적 인기로 가중치 부여.
5. 놀랍게도 인기 있는 (Surprisingly Popular, SP): 관찰된 지지율과 예측된 지지율의 차이를 이용해 소수 전문가의 의견을 찾아내는 알고리즘.
제어 실험 (Negative Control):
- 무작위 문자열 테스트: 의미 없는 무작위 ASCII 문자열을 입력하고 A, B, C, D 중 하나를 강제로 선택하게 함. 이 경우 정답이 존재하지 않으므로, 모델 간 상관관계가 '공유 지식'이 아닌 '구조적 편향'에서 기인하는지 확인.

3. 주요 결과 (Key Results)

연구 결과는 "검증자가 없는 환경에서 집계 전략은 진실성을 향상시키지 못한다"는 결론으로 귀결됩니다.

집계의 실패:
- 추론 비용을 25 배까지 늘려도 (단일 샘플 대비), 다수결이나 다른 집계 방법은 벤치마크 전반에서 일관된 정확도 향상을 보이지 않았습니다. 오히려 일부 벤치마크에서는 정확도가 하락하기도 했습니다.
- 예측 (Forecasting) 과제: 모델의 지식 컷오프 이후의 사건을 예측하는 과제에서는 모든 방법이 우연 수준 (Chance level) 의 성능을 보였습니다.
상관된 오류 (Correlated Errors):
- 군중의 지혜가 작동하려면 오류가 독립적이어야 합니다. 그러나 LLM 들은 훈련 데이터, 목적 함수, 후속 학습 (Post-training) 이 유사하여 **공유된 사전 지식 (Shared Priors) 과 맹점 (Blind Spots)**을 가집니다.
- 하나의 모델이 틀린 답을 낼 때, 다른 모델들도 동일한 틀린 답을 낼 확률이 매우 높습니다. 이는 오류가 상쇄되는 것이 아니라 공통된 오해를 증폭시킵니다.
신뢰도 (Confidence) 와 진실성의 불일치:
- 모델이 스스로 보고하는 신뢰도는 정답 여부와는 약하게만 상관관계가 있고, **다른 모델들과의 합의 (Consensus)**와는 강하게 상관관계가 있습니다.
- 즉, 모델은 "무엇이 진실인가"보다 "다른 모델들이 무엇을 말할 것인가"를 더 잘 예측합니다.
놀랍게도 인기 있는 (SP) 알고리즘의 실패:
- SP 알고리즘은 "진실을 아는 소수 전문가가 다수의 오류를 예측할 수 있다"는 전제가 필요합니다. 하지만 LLM 집단에서는 이러한 구조가 일관되게 존재하지 않았습니다. 오히려 SP 신호가 정답과 반대로 움직이는 (Anti-correlated) 경우도 있었습니다.
구조적 상관관계의 증명:
- 무작위 문자열 실험: 정답이 존재하지 않는 무작위 문자열에 대해 모델들은 여전히 유의미한 상관관계 (0.35 까지) 를 보였습니다. 이는 상관관계가 공유된 사실적 지식 때문이 아니라, 모델 아키텍처와 훈련 과정에서 비롯된 공유된 귀납적 편향 (Inductive Biases) 때문임을 증명합니다.

4. 핵심 기여 (Key Contributions)

검증자 부재 영역에서의 집계 실패 증명: 검증자가 없는 벤치마크에서 추론 시간 스케일링 (샘플링 증가) 이 진실성을 향상시키지 못함을 5 개의 모델과 4 개의 벤치마크를 통해 실증했습니다.
상관된 오류의 구조적 원인 규명: LLM 의 오류가 모델 간, 샘플 간에 강하게 상관되어 있음을 발견했습니다. 이는 공유된 훈련 데이터와 목적 함수에서 기인하며, 이는 군중 지능의 핵심 가정인 '오류의 독립성'을 위반합니다.
사회적 예측과 진실 검증의 분리: 모델은 '집단 의견 (Consensus)'을 예측하는 데는 능숙하지만, '진실 (Truth)'을 검증하는 데는 서툴다는 것을 밝혔습니다. 신뢰도나 SP 신호는 진실이 아니라 합의도를 반영합니다.
새로운 부정적 제어 (Negative Control) 도입: 정답이 없는 무작위 문자열을 이용한 실험을 통해, 모델 간 상관관계가 지식 공유가 아닌 구조적 편향임을 입증했습니다.

5. 의의 및 결론 (Significance & Conclusion)

추론 시간 스케일링의 한계 설정: 이 연구는 "더 많은 컴퓨팅 자원과 샘플링만으로는 검증자가 없는 문제의 진실성을 해결할 수 없다"는 명확한 경계를 제시합니다.
합의는 검증이 아님: 다수결이나 높은 신뢰도는 정답을 보장하지 않으며, 오히려 공통된 오해를 강화할 수 있습니다.
미래 방향성:
- 진실성을 향상시키려면 단순한 샘플링 증가가 아닌, 외부 검증 (External Grounding) (검색, 도구 사용, 실행, 인간 피드백) 이 필요합니다.
- 또는 훈련 데이터나 목적 함수를 완전히 분리하여 **진정한 인식적 다양성 (Epistemic Diversity)**을 확보해야 합니다.
- 단순한 "컴퓨팅 파워 투입 (Throwing compute)" 전략은 검증이 없는 영역에서는 효과가 없으며, 새로운 검증 메커니즘 개발이 필수적입니다.

요약: 이 논문은 LLM 들이 서로 너무 비슷하게 생각하기 때문에 (상관된 오류), 여러 모델을 모아 투표하거나 신뢰도를 따르는 방식은 검증자가 없는 환경에서 정답을 찾아내지 못한다고 강력하게 주장합니다. 이는 LLM 의 신뢰성을 높이기 위해서는 단순한 스케일링이 아닌, 외부 검증 시스템의 도입이 필수적임을 시사합니다.

Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness

🍎 핵심 비유: "동일한 교재를 본 학생들"

🔍 주요 발견 3 가지

1. "여러 명이 동의하면 정답일까?" (집단 지성의 실패)

2. "자신감 = 정답?" (자신감의 함정)

3. "아무것도 없는 질문에서도 같은 답을 한다" (가장 강력한 증거)

💡 결론: 왜 이 연구가 중요한가요?

1. 연구 배경 및 문제 제기 (Problem)

2. 연구 방법론 (Methodology)

3. 주요 결과 (Key Results)

4. 핵심 기여 (Key Contributions)

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문

DyMRL: Dynamic Multispace Representation Learning for Multimodal Event Forecasting in Knowledge Graph

How unconstrained machine-learning models learn physical symmetries

Experiential Reflective Learning for Self-Improving LLM Agents

Learning Mesh-Free Discrete Differential Operators with Self-Supervised Graph Neural Networks

Physics-Informed Neural Network Digital Twin for Dynamic Tray-Wise Modeling of Distillation Columns under Transient Operating Conditions