Compression Favors Consistency, Not Truth: When and Why Language Models Prefer Correct Information

이 논문은 언어 모델이 진실을 추구하는 것이 아니라, 훈련 데이터에 대한 더 짧고 일관된 설명을 압축하려는 압력으로 인해 결과적으로 올바른 정보를 선호하는 경향이 나타난다는 '압축 - 일관성 원칙'을 제안하고 실험을 통해 입증합니다.

Konstantin Krestnikov

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

📖 핵심 비유: "가장 짧은 이야기꾼"

이 논문의 핵심 아이디어는 **압축 **(Compression)입니다.
AI 모델은 방대한 책을 읽으며 학습합니다. 이때 AI 는 단순히 사실을 외우는 게 아니라, "이 책의 내용을 가장 짧고 간결하게 요약하는 법"을 배우려고 노력합니다.

  • **진실 **(True) = 논리적이고 일관된 규칙. (예: "사과가 떨어지는 이유는 중력 때문이다.")
  • **거짓 **(False) = 규칙이 없거나, 규칙이 복잡하게 꼬인 것.

AI 는 "어떤 이야기가 더 짧고 깔끔하게 설명될까?"를 계산합니다.


🧪 실험 1: "무작위 실수" vs "꾸며진 거짓말"

연구진은 AI 에게 두 가지 상황을 섞어서 가르쳤습니다.

1. 상황 A: 무작위 실수 (Random Errors)

  • 상황: 어떤 학생이 수학 문제를 풀 때, 실수하는 방식이 매번 다릅니다. (어떤 때는 부호를 잘못 쓰고, 어떤 때는 숫자를 빼먹고, 어떤 때는 엉뚱한 공식을 씁니다.)
  • AI 의 생각: "이 학생의 실수 패턴은 너무 복잡하고 예측 불가능해. 이걸 설명하려면 매번 다른 변명을 해야 해. 너무 길고 귀찮아. 반면, '정답'은 하나의 규칙으로 모든 걸 설명할 수 있겠네."
  • 결과: AI 는 정답을 선택합니다. (정답이 10% 만 있어도 AI 는 정답을 더 잘 압니다.)
  • 비유: 친구가 "오늘 날씨 어때?"라고 물었을 때, 한 친구는 "비 온다"라고 일관되게 말하고, 다른 친구는 "비 온다", "해 뜰 것 같다", "눈이 올 것 같다"라고 매번 다른 헛소리를 한다면, 우리는 일관된 친구의 말을 더 믿게 됩니다.

2. 상황 B: 일관된 거짓말 (Coherent Errors)

  • 상황: 이번엔 학생이 매일 같은 방식으로 틀린 규칙을 적용합니다. (예: "모든 곱셈에서 1 을 빼서 계산한다"라고 정해놓고, 그 규칙대로만 문제를 풉니다.)
  • AI 의 생각: "오, 이 학생은 비록 틀렸지만, 자신의 규칙이 아주 깔끔하고 일관되네. 정답과 똑같은 길이로 설명할 수 있어. 그럼 둘 다 똑같아. 그냥 더 많이 나오는 쪽을 선택하지."
  • 결과: AI 는 정답과 거짓말을 구분하지 못합니다. (거짓말이 더 많이 나오면 거짓말을 더 믿습니다.)
  • 비유: 만약 그 친구가 "나는 항상 1 을 빼서 계산한다"는 규칙을 100% 일관되게 지키며 거짓말을 한다면, AI 는 그 거짓말도 '진실'처럼 간주합니다. 진실과 거짓의 차이가 '규칙의 일관성'으로만 남기 때문입니다.

🔍 중요한 발견들 (일상 언어로)

1. "진실"은 특별한 게 아닙니다.

AI 는 "이게 진리야!"라고 느끼는 게 아닙니다. 그냥 "이게 더 짧고 깔끔하게 설명되네"라고 계산할 뿐입니다. 만약 거짓말이 아주 깔끔하게 짜여 있다면, AI 는 거짓말을 진실처럼 받아들입니다.

2. "확인 단계"가 필요합니다.

연구진은 거짓말이 일관되더라도, **검증 **(Verification)을 넣으면 AI 가 다시 정답을 찾을 수 있음을 발견했습니다.

  • 비유: 학생이 "10 곱하기 5 는 40 이다"라고 일관되게 말하더라도, 마지막에 "계산기를 눌러보니 50 이네?"라고 검증 단계를 거치면, AI 는 "아, 이 규칙은 틀렸구나"라고 깨닫습니다.
  • 하지만 이 검증 단계가 없으면, AI 는 일관된 거짓말에 속아 넘어갑니다.

3. 수학 vs 일상 언어

  • 수학: 정답과 오답의 경계가 뚜렷해서 AI 가 거짓말을 쉽게 찾아냅니다.
  • 일상 언어: 거짓말도 그럴듯하게 꾸며지면 AI 가 구분하기 훨씬 어렵습니다. (예: "약초가 모든 병을 고친다"는 거짓말도 일관된 규칙처럼 보일 수 있습니다.)

💡 이 연구가 우리에게 주는 교훈

이 논문은 AI 가 "진실"을 추구하는 도구가 아니라, "일관성"을 추구하는 도구임을 보여줍니다.

  • 우리가 걱정해야 할 점: 만약 누군가 AI 에게 **일관된 거짓말 **(예: 음모론, 편향된 정보)을 많이 가르친다면, AI 는 그 거짓말을 진실처럼 받아들일 수 있습니다. AI 는 "이게 더 깔끔하네"라고 생각할 뿐, "이게 거짓이야"라고 생각하지 않기 때문입니다.
  • 해결책: AI 가 거짓말을 하지 않게 하려면, 단순히 데이터를 많이 주는 게 아니라 **거짓말이 일관되지 않게 하거나 **(혼란스럽게 하거나), **사실을 검증하는 과정 **(Fact-checking)을 학습 데이터에 포함시켜야 합니다.

📝 한 줄 요약

"AI 는 진실을 말하지 않는다. AI 는 가장 짧고 깔끔하게 설명되는 이야기를 말할 뿐이다. 만약 거짓말이 그보다 더 깔끔하게 짜여 있다면, AI 는 거짓말을 진실로 믿는다."

이 연구는 AI 를 더 똑똑하게 만드는 것뿐만 아니라, "어떻게 하면 AI 가 일관된 거짓말에 속지 않게 할까?"에 대한 새로운 통찰을 줍니다.