Drift and selection in LLM text ecosystems

Each language version is independently generated for its own context, not a direct translation.

📚 핵심 비유: "무한히 반복되는 도서관과 요리사"

상상해 보세요. 전 세계의 모든 책이 모여 있는 거대한 **도서관 (공공 텍스트 기록)**이 있습니다. 이 도서관의 책들은 두 가지 방식으로 만들어집니다.

사람들이 쓴 책 (원본)
요리사 (AI) 가 만든 책 (AI 가 도서관의 책을 읽고, 그 스타일을 모방해서 새로 쓴 책)

이 연구는 **"요리사가 쓴 책이 다시 도서관에 꽂히고, 다음 요리사가 그 책을 보고 또 새로운 책을 쓰는 과정"**이 반복될 때 어떤 일이 일어나는지 분석합니다.

1. 두 가지 힘: "흐름 (Drift)"과 "선별 (Selection)"

이 과정에서 도서관의 책들은 두 가지 힘에 의해 변합니다.

① 흐름 (Drift): "희귀한 재료가 사라지는 자연의 법칙"

비유: 요리사가 도서관에서 재료를 고를 때, 아주 흔한 재료 (예: 소금, 설탕) 는 쉽게 구할 수 있지만, 아주 드문 재료 (예: 특정 지역의 희귀 허브) 는 실수로 놓치기 쉽습니다.
현상: AI 가 무작위로 글을 생성할 때, 자주 쓰이는 단어는 계속 살아남지만, 드문 단어는 실수로 사라집니다. 한 번 사라지면 다시 돌아오지 않습니다.
결과: 시간이 지나면 도서관에는 가장 흔하고 평범한 단어들만 남게 됩니다. 언어가 "평평해지고 (Shallow)" 다양성이 사라집니다. 이를 **'모델 붕괴 (Model Collapse)'**라고도 부릅니다.

② 선별 (Selection): "심사위원의 눈"

비유: 도서관에 책이 들어오기 전에 **심사위원 (편집자, 검증 시스템)**이 있습니다. 이 심사위원이 "이 책은 재미있어야 해", "이 책은 수학적으로 옳아야 해", "이 책은 새로워야 해"라고 기준을 정합니다.
현상:
- 단순한 선별 (Descriptive): "지금 도서관에 있는 책과 비슷하면 통과"라고 한다면? -> 흐름 (Drift) 만이 작용하여 도서관은 점점 더 평범하고 얕은 책들로만 가득 찹니다.
- 규범적 선별 (Normative): "옳고, 정확하고, 창의적인 책만 통과"라고 한다면? -> 깊은 구조가 살아남습니다. 비록 AI 가 쓴 글이라도, 검증 과정을 통과한 '고품질' 글들은 도서관에 남게 되어 언어의 깊이를 유지시킵니다.

2. 주요 발견: "얕은 물 vs 깊은 바다"

이 논문은 수학적 모델을 통해 두 가지 중요한 결론을 내립니다.

🌊 결론 1: 아무런 기준 없이 반복하면 언어는 '얕아진다'

요리사들이 아무런 필터 없이 서로의 글을 베껴 쓰면, 도서관은 **가장 흔한 문장들만 반복하는 '얕은 웅덩이'**가 됩니다.

비유: 마치 "맛있는 음식"을 찾는 대신 "누구든 먹어본 음식"만 반복해서 만드는 것과 같습니다. 결국 모든 요리가 똑같은 맛 (가장 흔한 맛) 이 되어버립니다.
수학적 의미: AI 가 생성한 텍스트를 학습 데이터로 쓸 때, 예측 가능한 패턴만 남고 창의성이나 복잡한 논리는 사라집니다.

🏔️ 결론 2: '검증'이 있으면 언어는 '깊게' 남을 수 있다

만약 AI 가 글을 쓸 때 **"이 글이 논리적으로 맞는지", "코드가 실행되는지", "사실이 정확한지"**를 스스로 확인하거나 외부 검증 시스템을 거친다면 이야기가 달라집니다.

비유: 요리사가 요리를 할 때, "맛이 나쁘면 버리고, 맛있는 것만 다시 요리한다"고 가정해 보세요. 그러면 비록 재료가 줄어들더라도, 남은 요리들은 훨씬 더 정교하고 깊이가 생깁니다.
수학적 의미: 검증 (Verification) 이나 품질 기준 (Normative rules) 이 있는 경우, AI 는 얕은 반복을 멈추고 더 복잡한 구조를 유지할 수 있습니다.

3. 이 연구가 우리에게 주는 메시지

이 논문은 AI 개발자와 일반인 모두에게 중요한 교훈을 줍니다.

AI 가 쓴 글만 계속 학습시키면 안 됩니다. (흐름의 위험)
- AI 가 쓴 글을 다시 AI 에게 먹이면, 언어는 점점 단순해지고 오류가 쌓입니다. 마치 "거울을 거울로 비추면 이미지가 흐려지는 것"과 같습니다.
품질 관리 (검증) 가 필수입니다. (선별의 중요성)
- AI 가 생성한 글이 공공 기록 (인터넷, 뉴스, 교과서 등) 에 들어가기 전에 사람의 검증이나 자동화된 테스트를 통과해야 합니다. 그래야만 AI 가 만든 언어가 "얕은 웅덩이"로 빠지지 않고 "깊은 바다"를 유지할 수 있습니다.
학습 데이터의 설계가 중요합니다.
- 우리는 AI 에게 "무엇을 학습시킬지"를 선택할 수 있습니다. 단순히 많은 양의 데이터를 주는 것보다, 옳고 깊은 내용을 선별해서 학습시키는 것이 미래의 AI 를 더 똑똑하게 만듭니다.

📝 한 줄 요약

"AI 가 쓴 글을 AI 가 다시 학습하면 언어는 점점 평범해지고 죽어갑니다. 하지만 '검증'과 '품질 기준'을 거치면, AI 는 오히려 더 깊고 풍부한 언어를 만들어낼 수 있습니다."

이 연구는 수학적 증명과 실험을 통해, **"우리가 어떻게 AI 의 학습 환경을 설계하느냐에 따라 AI 의 미래가 결정된다"**는 것을 명확히 보여줍니다.

Each language version is independently generated for its own context, not a direct translation.

제공된 논문 "Drift and selection in LLM text ecosystems (LLM 텍스트 생태계에서의 표류와 선택)" 은 인공지능 (AI) 생성 텍스트가 공공 기록 (public record) 에 포함되고, 이후의 AI 모델이 이를 학습하는 순환적 과정이 텍스트의 진화에 미치는 영향을 수학적으로 분석한 연구입니다.

저자 Søren Riis 는 가변 차수 n-gram 에이전트를 기반으로 한 정확히 풀 수 있는 (exactly solvable) 수학적 프레임워크를 제시하여, 이 순환적 과정이 텍스트의 다양성과 구조에 어떻게 영향을 미치는지 규명했습니다.

주요 내용은 다음과 같습니다.

1. 연구 배경 및 문제 정의

문제: 현대의 공공 텍스트 기록은 인간과 AI 가 혼합되어 생성되고 필터링됩니다. AI 가 생성한 텍스트가 다시 학습 데이터로 사용되면, 이는 "생성된 데이터의 재사용 (recursive reuse)"을 의미합니다.
위험: 기존 연구들은 이러한 순환적 재사용이 데이터의 꼬리 부분 (rare forms) 을 삭제하거나, 다양성을 감소시켜 모델 붕괴 (model collapse) 를 초래할 수 있음을 보여주었습니다.
연구 목표: 기존 연구들이 개별 현상에 집중했다면, 본 논문은 **중립적 표류 (neutral drift)**와 **선택적 필터링 (selective filtering)**이라는 두 가지 핵심 힘을 분리하여, 공공 코퍼스가 어떻게 변형되고 이후 학습자가 무엇을 상속받는지 체계적인 이론을 정립하는 것입니다.

2. 방법론: 수학적 프레임워크

논문은 복잡한 현대 LLM 대신 가변 차수 n-gram 에이전트를 사용하여 시스템을 수학적으로 명확하게 모델링했습니다. 이는 강화학습의 테이블 Q-러닝과 유사하게, 복잡한 신경망의 근사치를 넘어 시스템의 구조적 동역학을 정확히 분석할 수 있게 합니다.

순환 과정 (Recursive Loop):
1. 현재 코퍼스에 n-gram 모델을 적합 (fit) 시킵니다.
2. 모델에서 합성 텍스트를 생성합니다.
3. 생성된 텍스트가 코퍼스의 일부 (또는 전체) 를 대체합니다.
4. 이 과정을 반복합니다.
두 가지 힘의 분리:
1. 표류 (Drift): 필터링 없이 무작위로 재사용될 때 발생하는 현상. 유한한 샘플링으로 인해 희귀한 형태 (rare forms) 가 우연히 소실되는 과정입니다.
2. 선택 (Selection): 출판, 순위 매기기, 검증 (verification) 등을 통해 어떤 텍스트가 기록에 남을지 결정하는 과정입니다. 이는 '기술적 상태 (descriptive)'를 반영할 수도 있고, '규범적 기준 (normative, 예: 품질, 정확성, 참신함)'을 적용할 수도 있습니다.

3. 주요 기여 및 이론적 결과 (Theorems)

Theorem 1: 중립적 표류와 고정점 다면체 (Drift and Fixed-point Polytope)

유한 코퍼스 (Finite Corpus): 유한한 크기의 코퍼스에서 희귀한 단어는 Wright-Fisher 모델 (집단 유전학의 중립 표류 모델) 과 유사하게 행동합니다. 기대값은 변하지 않지만, 유한 샘플링으로 인한 분산이 누적되어 희귀한 형태는 결국 소실됩니다.
무한 코퍼스 한계 (Infinite-corpus limit): 샘플링 노이즈가 사라지면, 시스템은 de Bruijn 그래프상의 순환 (circulations) 으로 표현되는 고정점 집합에 수렴합니다.
- 이 고정점 집합은 볼록 다면체 (convex polytope) 를 형성하며, 그 극점 (extreme points) 은 결정론적인 주기적 시퀀스 (simple directed cycles) 에 대응됩니다.
- 즉, 중립적 재사용만으로는 텍스트가 특정 주기적 패턴으로 수렴하거나, 다양한 주기적 패턴의 혼합으로 안정화됩니다.

Theorem 2: 선택 하의 고정점 (Fixed points under selection)

논문은 출판 규칙이 **기술적 (Descriptive)**인지 **규범적 (Normative)**인지에 따라 결과가 완전히 달라짐을 증명했습니다.

기술적 출판 (Descriptive Publication): 생성된 텍스트를 그대로 출판하거나 통계적 현황을 반영하는 경우.
- 결과: 코퍼스는 n-얕은 (n-shallow) 상태로 수렴합니다. 즉, n-gram 윈도우보다 긴 맥락 (lookahead) 을 사용해도 추가적인 예측 이득이 없는 상태가 됩니다.
- 의미: "생각 (lookahead)"을 하더라도 필터링이 없으면, 장기적인 구조는 사라지고 단기 통계만 남게 되어 모델의 깊이가 얕아집니다.
규범적 출판 (Normative Publication): 품질, 정확성, 참신함 등을 검증하여 필터링하는 경우.
- 결과: 코퍼스는 n-얕은 상태가 아닐 수 있으며, 깊은 구조 (deep structure) 가 유지됩니다.
- KL 발산: 코퍼스의 분포와 유도된 n-gram 전이 법칙 (rollout) 사이의 KL 발산이 0 이 아닌 양의 값을 가집니다. 이 발산은 $L \log_2 s$ 비트 (여기서 $L$ 은 숨겨진 깊이, $s$ 는 어휘 크기) 이하로 제한되며, 이 상한선은 최적입니다.
- 의미: 규범적 필터링은 장기적인 구조를 유지하게 하여, 이후 학습자가 더 깊은 맥락을 학습할 수 있게 합니다.

Theorem 3: 교차 엔트로피 상속 (Cross-entropy inheritance)

이후의 학습자 (later learners) 는 필터링된 환경에서 학습할 때, 해당 환경이 생성한 **공통 조건부 분포 (public conditional)**를 학습하게 됩니다.
모델 아키텍처 (n-gram 이든 신경망이든) 에 관계없이, 교차 엔트로피 최소화는 학습자가 환경의 조건부 분포에 수렴하도록 만듭니다.
즉, **어떤 텍스트가 기록에 남았는지 (선택의 결과)**가 중요하며, 그 텍스트를 생성한 내부 메커니즘 (예: 체인 오브 씽킹) 은 학습자에게 직접 전달되지 않고, 필터링된 결과물만 상속됩니다.

4. 실험 결과 및 시각화

어휘 수축 (Vocabulary Contraction): 중립적 재사용 (Drift) 하에서 희귀한 어휘와 고차원 n-gram 구조가 빠르게 소실됨을 실험적으로 확인했습니다 (Conan Doyle, Austen, Darwin 텍스트 사용).
기술적 vs 규범적 비교:
- 기술적 경우: KL 발산이 0 에 수렴하여 텍스트가 n-얕은 상태가 됨을 보였습니다.
- 규범적 경우: KL 발산이 0 이 아닌 안정된 값 (Plateau) 에서 수렴하며, 깊은 구조가 유지됨을 보였습니다.
- 이는 "수렴 (convergence)"과 "n-얕음 (n-shallowness)"이 별개의 개념임을 입증합니다.

5. 의의 및 시사점

AI 학습 데이터 설계: AI 훈련 코퍼스를 설계할 때, 단순히 생성된 데이터를 재사용하는 것은 텍스트의 다양성과 깊이를 파괴할 수 있습니다. **규범적 필터링 (검증, 품질 관리)**이 필수적이며, 이는 모델이 복잡한 추론이나 깊은 구조를 유지할 수 있게 합니다.
모델 붕괴의 메커니즘: 모델 붕괴는 단순히 데이터가 부족해서가 아니라, 중립적 표류와 **부적절한 선택 (기술적 출판)**의 조합으로 인해 발생하는 구조적 문제임을 이론적으로 규명했습니다.
과정 학습 vs 산물 학습:
- 산물 학습 (Artefact-learning): 완성된 증명이나 코드 패치만 필요한 경우, 필터링은 불필요한 시도를 제거하여 학습을 효율화할 수 있습니다.
- 과정 학습 (Process-learning): 디버깅, 증명 탐색, 과학적 탐구와 같이 '실패한 시도'나 '중간 단계'가 중요한 경우, 과도한 필터링은 학습에 필요한 흔적을 지워버려 역효과를 낼 수 있습니다.
이론적 기반: n-gram 모델을 통해 복잡한 LLM 생태계의 동역학을 정확히 해석 가능한 수학적 언어로 설명함으로써, 향후 더 복잡한 모델 (Transformer 등) 에 대한 이론적 확장의 기초를 마련했습니다.

요약

이 논문은 AI 생성 텍스트가 순환적으로 학습될 때 발생하는 **표류 (Drift)**와 **선택 (Selection)**의 힘을 분리하여 분석했습니다. 기술적 출판은 텍스트를 얕고 단순한 상태로 압축시키지만, 규범적 필터링은 깊은 구조를 유지하고 강화할 수 있음을 수학적으로 증명했습니다. 이는 AI 의 지속 가능한 발전을 위해 고품질 필터링과 검증 프로세스가 필수적임을 시사하며, 미래의 AI 학습 데이터 전략 수립에 중요한 이론적 토대를 제공합니다.