Compression Favors Consistency, Not Truth: When and Why Language Models Prefer Correct Information

Each language version is independently generated for its own context, not a direct translation.

📖 핵심 비유: "가장 짧은 이야기꾼"

이 논문의 핵심 아이디어는 **압축 **(Compression)입니다.
AI 모델은 방대한 책을 읽으며 학습합니다. 이때 AI 는 단순히 사실을 외우는 게 아니라, "이 책의 내용을 가장 짧고 간결하게 요약하는 법"을 배우려고 노력합니다.

**진실 **(True) = 논리적이고 일관된 규칙. (예: "사과가 떨어지는 이유는 중력 때문이다.")
**거짓 **(False) = 규칙이 없거나, 규칙이 복잡하게 꼬인 것.

AI 는 "어떤 이야기가 더 짧고 깔끔하게 설명될까?"를 계산합니다.

🧪 실험 1: "무작위 실수" vs "꾸며진 거짓말"

연구진은 AI 에게 두 가지 상황을 섞어서 가르쳤습니다.

1. 상황 A: 무작위 실수 (Random Errors)

상황: 어떤 학생이 수학 문제를 풀 때, 실수하는 방식이 매번 다릅니다. (어떤 때는 부호를 잘못 쓰고, 어떤 때는 숫자를 빼먹고, 어떤 때는 엉뚱한 공식을 씁니다.)
AI 의 생각: "이 학생의 실수 패턴은 너무 복잡하고 예측 불가능해. 이걸 설명하려면 매번 다른 변명을 해야 해. 너무 길고 귀찮아. 반면, '정답'은 하나의 규칙으로 모든 걸 설명할 수 있겠네."
결과: AI 는 정답을 선택합니다. (정답이 10% 만 있어도 AI 는 정답을 더 잘 압니다.)
비유: 친구가 "오늘 날씨 어때?"라고 물었을 때, 한 친구는 "비 온다"라고 일관되게 말하고, 다른 친구는 "비 온다", "해 뜰 것 같다", "눈이 올 것 같다"라고 매번 다른 헛소리를 한다면, 우리는 일관된 친구의 말을 더 믿게 됩니다.

2. 상황 B: 일관된 거짓말 (Coherent Errors)

상황: 이번엔 학생이 매일 같은 방식으로 틀린 규칙을 적용합니다. (예: "모든 곱셈에서 1 을 빼서 계산한다"라고 정해놓고, 그 규칙대로만 문제를 풉니다.)
AI 의 생각: "오, 이 학생은 비록 틀렸지만, 자신의 규칙이 아주 깔끔하고 일관되네. 정답과 똑같은 길이로 설명할 수 있어. 그럼 둘 다 똑같아. 그냥 더 많이 나오는 쪽을 선택하지."
결과: AI 는 정답과 거짓말을 구분하지 못합니다. (거짓말이 더 많이 나오면 거짓말을 더 믿습니다.)
비유: 만약 그 친구가 "나는 항상 1 을 빼서 계산한다"는 규칙을 100% 일관되게 지키며 거짓말을 한다면, AI 는 그 거짓말도 '진실'처럼 간주합니다. 진실과 거짓의 차이가 '규칙의 일관성'으로만 남기 때문입니다.

🔍 중요한 발견들 (일상 언어로)

1. "진실"은 특별한 게 아닙니다.

AI 는 "이게 진리야!"라고 느끼는 게 아닙니다. 그냥 "이게 더 짧고 깔끔하게 설명되네"라고 계산할 뿐입니다. 만약 거짓말이 아주 깔끔하게 짜여 있다면, AI 는 거짓말을 진실처럼 받아들입니다.

2. "확인 단계"가 필요합니다.

연구진은 거짓말이 일관되더라도, **검증 **(Verification)을 넣으면 AI 가 다시 정답을 찾을 수 있음을 발견했습니다.

비유: 학생이 "10 곱하기 5 는 40 이다"라고 일관되게 말하더라도, 마지막에 "계산기를 눌러보니 50 이네?"라고 검증 단계를 거치면, AI 는 "아, 이 규칙은 틀렸구나"라고 깨닫습니다.
하지만 이 검증 단계가 없으면, AI 는 일관된 거짓말에 속아 넘어갑니다.

3. 수학 vs 일상 언어

수학: 정답과 오답의 경계가 뚜렷해서 AI 가 거짓말을 쉽게 찾아냅니다.
일상 언어: 거짓말도 그럴듯하게 꾸며지면 AI 가 구분하기 훨씬 어렵습니다. (예: "약초가 모든 병을 고친다"는 거짓말도 일관된 규칙처럼 보일 수 있습니다.)

💡 이 연구가 우리에게 주는 교훈

이 논문은 AI 가 "진실"을 추구하는 도구가 아니라, "일관성"을 추구하는 도구임을 보여줍니다.

우리가 걱정해야 할 점: 만약 누군가 AI 에게 **일관된 거짓말 **(예: 음모론, 편향된 정보)을 많이 가르친다면, AI 는 그 거짓말을 진실처럼 받아들일 수 있습니다. AI 는 "이게 더 깔끔하네"라고 생각할 뿐, "이게 거짓이야"라고 생각하지 않기 때문입니다.
해결책: AI 가 거짓말을 하지 않게 하려면, 단순히 데이터를 많이 주는 게 아니라 **거짓말이 일관되지 않게 하거나 **(혼란스럽게 하거나), **사실을 검증하는 과정 **(Fact-checking)을 학습 데이터에 포함시켜야 합니다.

📝 한 줄 요약

"AI 는 진실을 말하지 않는다. AI 는 가장 짧고 깔끔하게 설명되는 이야기를 말할 뿐이다. 만약 거짓말이 그보다 더 깔끔하게 짜여 있다면, AI 는 거짓말을 진실로 믿는다."

이 연구는 AI 를 더 똑똑하게 만드는 것뿐만 아니라, "어떻게 하면 AI 가 일관된 거짓말에 속지 않게 할까?"에 대한 새로운 통찰을 줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

대규모 언어 모델 (LLM) 은 사실적 벤치마크에서 높은 정확도를 보이지만, 동시에 확신에 차서 허위 정보를 생성하기도 합니다. 기존 연구들은 모델의 크기 (Scaling), RLHF 와 같은 정렬 기술, 훈련 데이터의 통계적 특성 (빈도, 출처 신뢰도), 또는 모델 내부의 '진실 표현 (Truth Representations)' 등을 진실성 (Truthfulness) 의 원인으로 제시해 왔습니다.

그러나 **다음 토큰 예측 (Next-token Prediction)**이라는 근본적인 훈련 목적 함수 자체가 왜 진실을 선호하게 만드는지에 대한 설명은 부족했습니다. 본 논문은 이 질문에 답하기 위해 **"압축 (Compression)"**의 관점에서 접근합니다. 즉, 모델이 진실을 선호하는 것이 진리 그 자체에 대한 본질적 선호가 아니라, 데이터를 압축하는 과정에서 발생하는 구조적 결과일 수 있음을 탐구합니다.

2. 핵심 가설: 압축 - 일관성 원칙 (Compression-Consistency Principle)

저자는 압축 - 일관성 원칙을 제안합니다.

핵심 명제: 경사 하강법 (Gradient Descent) 은 훈련 데이터를 더 짧고 일관성 있게 설명하는 가설을 선호합니다.
진실 편향의 조건: 진실 편향은 근본적인 것이 아닙니다. 오직 거짓 대안이 올바른 규칙 체계보다 압축하기 어렵게 (비일관적으로) 구성되었을 때만 나타납니다.
메커니즘:
- 무작위 오류 (Random Errors): 각 오류가 고유하고 비일관적이므로 개별적으로 암기해야 하므로 압축 효율이 낮음. $\rightarrow$ 모델은 압축 효율이 높은 올바른 규칙을 선호함.
- 일관된 오류 (Coherent Errors): 체계적이지만 수학적으로 틀린 규칙 (예: $a \times b = a \times (b-1)$ ) 은 내부적으로 일관되어 있어 올바른 규칙과 동일한 압축 효율을 가짐. $\rightarrow$ 모델은 진실을 선호하지 않으며, 단순히 빈도 (Frequency) 에 따라 선택함.

3. 방법론 (Methodology)

3.1 모델 및 훈련 설정

모델: GPT-2 스타일의 디코더 전용 트랜스포머 (Character-level 토크나이저 사용, BPE 아티팩트 배제).
크기: 3.5M (Tiny) 에서 86M (Large) 파라미터까지 4 가지 규모.
훈련: 고정된 5,000 스텝, AdamW 옵티마이저, 4 개의 시드 (Seed) 로 반복 실행.

3.2 코퍼스 (Corpus) 생성

수학 문제 (산술, 인수분해, 방정식, 미분) 와 그 단계별 해답을 생성하며, 다음과 같은 오류 유형을 통제된 비율로 혼합합니다.

무작위 오류 (Random): 각 문제마다 무작위로 삽입된 비일관적인 오류.
일관된 오류 (Coherent): 문제 유형별로 하나의 체계적인 잘못된 규칙을 적용 (모든 오류가 동일한 패턴).
모순된 오류 (Contradictory): 대수적 구조를 파괴하는 단순한 규칙.
다중 규칙 오류 (Multi-rule): 여러 개의 잘못된 규칙 중 하나를 무작위로 선택하여 적용.

3.3 평가 지표

주요 지표 (Paired Evaluation): 동일한 프롬프트에 대해 '올바른 해답'과 '틀린 해답' 두 가지 완성을 생성하고, 모델이 올바른 해답에 더 낮은 손실 (NLL) 을 부여하는지 확인합니다. 이는 프롬프트 통계적 편향을 제거하고 모델의 순수한 선호도를 측정합니다.
보조 지표 (Corpus-level): 전체 코퍼스의 손실 차이 (DLoss) 를 측정하지만, 텍스트 통계적 차이로 인한 편향을 경고합니다.

4. 주요 실험 결과 (Key Results)

4.1 무작위 오류 vs. 일관된 오류 (실험 1)

무작위 오류 (50/50 혼합): 모델은 올바른 해답을 **83.1%**의 확률로 선호했습니다. 오류가 90% 를 차지하더라도 (10/90) 여전히 **66.7%**의 정확도로 진실을 선호했습니다. (무작위 오류는 압축하기 어렵기 때문)
일관된 오류 (50/50 혼합): 모델은 올바른 해답을 선호하지 않았습니다. 정확도는 47.2% (우연 수준) 에 머물렀습니다. 일관된 거짓 규칙은 올바른 규칙과 압축 효율이 동일하기 때문입니다.
빈도의 영향: 일관된 오류 조건에서는 모델이 단순히 더 많은 데이터를 가진 쪽 (빈도) 을 선택했습니다.

4.2 관찰 (Observation) 과 보정 (Correction) 의 효과 (실험 2, 3)

거짓 규칙에 대한 관찰 데이터 (예: 계산 결과와 실제 카운트 불일치) 를 추가하거나, 각 오류에 대한 개별적인 설명 (Ad hoc correction) 을 포함시켰습니다.
결과: 관찰 데이터나 보정 설명이 있더라도, 순수한 수학 쌍 (Paired) 평가에서는 진실을 선호하는 효과가 회복되지 않았습니다 (약 49%). 모델은 보정 패턴을 학습할 뿐, 이를 진리/오류 구분 능력으로 전이하지 못했습니다. 이는 코퍼스 수준의 손실 지표가 텍스트 길이/형식 차이로 인해 진실 편향을 과대평가할 수 있음을 시사합니다.

4.3 스케일링 효과 (실험 4)

무작위 오류: 모델 크기가 커질수록 (3.5M $\to$ 86M) 진실을 선호하는 경향이 강화되었습니다 (83.1% $\to$ 89.1%).
일관된 오류: 모델 크기가 커져도 진실을 선호하는 경향이 나타나지 않았습니다 (47.2% $\to$ 51.4%, 우연 수준).
의미: 더 큰 모델은 규칙을 더 잘 학습하지만, 일관된 거짓 규칙이 존재할 경우 진실을 선호하는 '진실 나침반'은 자동으로 작동하지 않습니다.

4.4 다중 규칙 오류 (실험 5)

거짓 규칙의 수 (N) 를 늘려가며 실험했습니다.
결과: 규칙이 1 개 (일관된 오류) 일 때는 46.6%, 2 개일 때 77.6%, 10 개일 때 88.3% 로 진실을 선호하는 경향이 점진적으로 증가했습니다. 이는 거짓 규칙의 다양성이 증가할수록 압축 효율이 떨어지기 때문입니다.

4.5 검증 단계가 포함된 체인 작업 (실험 9)

계산 과정에 검증 단계 (Verification step) 를 포함시켜, 일관된 오류가 예측 불가능한 수치적 잔차 (Residual) 를 발생하도록 했습니다.
결과: 작은 모델 (Tiny) 에서 진실을 선호하는 정확도가 **43% 에서 70.9%**로 크게 회복되었습니다. 이는 검증 단계가 일관된 오류를 '압축 불가능한' 상태로 변환했기 때문입니다.
주의: 더 큰 모델에서는 이 효과가 감소하는 경향을 보였으나, 이는 고정된 훈련 스텝 조건에서의 결과이므로 추가 검증이 필요합니다.

5. 주요 기여 (Contributions)

통제된 실험 설계: '일관된 거짓 (Coherent Falsehood)' 조건을 강력한 널 (Null) 가설로 사용하여, 진리 값과 압축 가능성을 분리했습니다.
쌍별 평가 (Paired Evaluation) 의 중요성 강조: 전체 코퍼스 손실 지표는 텍스트 통계적 차이로 인해 진실 편향을 과대평가할 수 있음을 입증하고, 쌍별 평가가 필수적임을 보였습니다.
부정적 결과 (Negative Result) 제시: 압축 압력만으로는 일관된 거짓을 구별하지 못함을 보여주어, 진실성 정렬 (Alignment) 에 대한 단순한 압축 기반 설명의 한계를 규명했습니다.

6. 의의 및 결론 (Significance & Conclusion)

진실 편향의 본질: 언어 모델의 진실 편향은 '진실'에 대한 본질적 선호가 아니라, 데이터의 압축 가능성 (Compressibility) 과 일관성 (Consistency) 에 대한 선호의 부산물입니다.
할루시네이션의 원인: 일관된 거짓 개념 (Coherent Misconceptions) 은 내부적으로 압축 효율이 높아 모델이 이를 진리와 구별하지 못하게 만들 수 있습니다. 이는 단순한 빈도 부족이 아닌, 구조적 일관성 때문에 발생합니다.
정렬 (Alignment) 에 대한 시사점: 훈련 목적 함수 (다음 토큰 예측) 만으로는 모델이 진실을 추구하도록 보장할 수 없습니다. 일관된 거짓 체계는 모델에게 여전히 매력적인 대안이 될 수 있습니다.
미래 방향: 자연어 영역에서는 수학보다 진실 편향 효과가 약하며 (57.7%), 복잡한 검증 메커니즘이 일관된 오류를 무력화하는 데 필수적일 수 있음을 시사합니다.

요약하자면, 이 논문은 "모델이 진실을 말하는 이유는 진실을 좋아해서가 아니라, 진리가 거짓말보다 더 짧고 일관된 설명을 제공하기 때문이며, 만약 거짓말도 일관된 규칙을 가진다면 모델은 진실을 구별하지 못한다"는 것을 실험적으로 증명했습니다.