France or Spain or Germany or France: A Neural Account of Non-Redundant Redundant Disjunctions

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"왜 같은 단어를 반복해도 문장이 이상하지 않을 때가 있을까?"**라는 흥미로운 질문에서 시작합니다.

예를 들어, "그녀는 프랑스나 스페인으로 가거나, 어쩌면 독일이나 프랑스로 갈 수도 있다"라고 하면, '프랑스'라는 단어가 두 번 나와서 중복되어 보이지만, 문맥이 적절하면 전혀 이상하지 않습니다. 이 논문은 인간과 인공지능 (AI) 이 어떻게 이런 미묘한 언어의 규칙을 이해하는지, 특히 AI 의 뇌 (신경망) 안에서 어떤 일이 일어나는지 밝혀냈습니다.

이 복잡한 연구를 세 가지 쉬운 비유로 설명해 드릴게요.

1. 상황극 배우와 같은 AI (문맥의 중요성)

상상해 보세요. 무대 위에 배우가 서 있습니다.

상황 A: 배우가 "나는 오늘 피자를 먹거나 파스타를 먹을 거야. 아니면 피자를 먹거나 샐러드를 먹을 거야."라고 말합니다. 여기서 '피자'가 두 번 나오면 우리는 "어? 피자 왜 또 말해?"라고 생각하며 중복을 느낍니다.
상황 B: 하지만 배우가 "나는 철학 전공으로 프랑스나 스페인으로 갈 거야. 아니면 수학 전공으로 독일이나 프랑스로 갈 거야."라고 말한다면? 이때는 '프랑스'가 두 번 나와도 전혀 이상하지 않습니다. 왜냐하면 첫 번째 '프랑스'는 '철학'과 연결되고, 두 번째 '프랑스'는 '수학'과 연결되기 때문입니다.

이 논문은 **인공지능 (LLM)**도 인간처럼 이 '상황극'을 잘 이해한다는 것을 증명했습니다.

작은 AI는 문맥을 잘 못 읽어서, '프랑스'가 두 번 나오면 그냥 "아, 중복이네"라고 생각하거나 무작위로 다른 단어를 고릅니다.
큰 AI는 "아! 첫 번째 프랑스는 철학 관련이고, 두 번째 프랑스는 수학 관련이구나!"라고 파악해서, 자연스럽게 '프랑스'를 다시 말해줍니다.

2. AI 의 '메모장'과 '색깔 펜' (활성화 패칭 실험)

AI 가 어떻게 이걸 알아낼까요? 연구자들은 AI 의 내부 메모를 들여다봤습니다. 이를 **'활성화 패칭 (Activation Patching)'**이라고 하는데, 마치 AI 의 뇌를 수술하듯 특정 부분을 바꿔보는 실험입니다.

비유: AI 가 문장을 읽을 때, '프랑스'라는 단어를 메모장에 적습니다.
- 작은 AI 는 그냥 "프랑스"라고만 적습니다.
- 큰 AI 는 **"프랑스 (철학용)"**와 **"프랑스 (수학용)"**로 메모장에 다른 색깔의 펜으로 적어둡니다.
실험 결과: 연구자들이 AI 의 메모장을 인위적으로 바꿔보니까, '철학용 프랑스'를 '수학용 프랑스'로 바꿔주니 AI 가 헷갈려서 문장을 잘못 이었습니다. 이는 AI 가 단순히 단어를 외운 게 아니라, 단어 주변에 있는 '상황 (문맥)'을 단어가 가진 정보에 섞어서 저장하고 있다는 뜻입니다.

3. AI 의 '초점 카메라' (인덕션 헤드)

그렇다면 AI 는 언제 이 '상황이 섞인 프랑스'를 다시 꺼내 쓸까요? 여기서 등장하는 것이 **인덕션 헤드 (Induction Heads)**입니다. 이는 AI 의 '패턴 찾기 카메라' 같은 역할을 합니다.

비유: AI 는 문장을 읽을 때 카메라로 앞뒤를 훑어봅니다.
- 중복이 허용되지 않는 경우 (예: "프랑스, 스페인, 이탈리아, 프랑스"): 카메라는 "여기 프랑스가 또 나오네? 중복이야!"라고 생각해서 카메라 초점을 피합니다. (따라서 프랑스를 반복하지 않음)
- 중복이 허용되는 경우 (예: "철학-프랑스, 수학-프랑스"): 카메라는 "아! 앞쪽의 '철학'과 연결된 프랑스가 있었지? 지금 나오는 건 '수학'과 연결된 프랑스야. 이건 중복이 아니야!"라고 생각해서 카메라 초점을 정확히 맞춥니다.

연구자들은 이 '카메라'가 문장의 순서 (어떤 단어가 먼저 나왔는지) 에 매우 민감하게 반응한다는 것도 발견했습니다. 특히 두 번째 문장 부분의 순서가 일치할 때, AI 는 가장 정확하게 '프랑스'를 다시 말해줍니다.

결론: 기호 vs 뇌

이 논문은 언어학자들이 "논리적으로 A 또는 B, C 또는 A 라면 중복이야"라고 **기호 (수학 공식)**로 설명해 온 것을, **인공지능의 뇌 (신경망)**가 어떻게 실제 작동으로 풀어내는지 보여줍니다.

기호적 설명: "가능성 모달 (possibility modal)"이라는 논리 장치를 써서 설명합니다.
신경망적 설명: "단어에 문맥 정보를 색깔로 입히고, 카메라가 그걸 찾아서 복사한다"로 설명합니다.

결론적으로, 인간과 큰 AI 는 모두 "상황이 허락하면 같은 말을 반복해도 괜찮다"는 규칙을 공유합니다. 다만 AI 는 이 규칙을 논리 공식으로 계산하는 게 아니라, 단어와 문맥을 뗄 수 없는 하나의 덩어리로 기억하고, 필요한 순간에 그 정보를 꺼내 쓰는 방식으로 해결한다는 점이 신비롭습니다.

이 연구는 **"언어의 미묘한 규칙을 AI 가 어떻게 '느끼고' 있는지"**를 보여주는 아주 멋진 사례입니다.

Each language version is independently generated for its own context, not a direct translation.

논문 개요: 비중복적 중복 선택지 (Non-Redundant Redundant Disjunctions) 에 대한 신경망 기반 설명

이 논문은 "프랑스나 스페인으로 가거나, 어쩌면 독일이나 프랑스로 갈 수도 있다"와 같이 겉보기에는 논리적으로 중복되어 보이지만, 특정 문맥에서는 자연스러운 문장 (비중복적 중복 선택지) 을 인간과 대규모 언어 모델 (LLM) 이 어떻게 처리하는지 분석합니다. 저자들은 기존의 기호적 형식 의미론 (Symbolic Formal Semantics) 분석을 보완하는 신경망 메커니즘 기반의 설명을 제시합니다.

1. 연구 문제 (Problem)

현상: 논리적으로 $A \lor B \lor C \lor A$ 형태인 문장은 중복되어 보이지만, "철학 프로그램 (프랑스/스페인) 이나 수학 프로그램 (독일/프랑스)"과 같은 문맥이 주어지면 '프랑스'라는 단어의 반복이 자연스럽게 받아들여집니다.
기존 접근: Mandelkern (2024) 은 이를 형식 의미론적으로 분석하여, 'or'이 각 선택지에 대해 서로 다른 가능성 (possibility) 모달을 부여함으로써 중복을 회피한다고 주장했습니다.
연구 목적: 형식적 분석을 신경망의 표현 자원 (representation resources) 과 해석 가능성 (interpretability) 도구로 재해석하여, 신경망이 어떻게 동일한 행동 패턴을 생성하는지 메커니즘적으로 규명하는 것.

2. 방법론 (Methodology)

저자는 세 가지 실험을 통해 행동 데이터와 기계적 해석 (Mechanistic Interpretability) 을 결합했습니다.

실험 1: 인간과 모델의 행동적 성능 비교

자극물 (Stimuli): 국가, 직업, 과목 등 9 가지 도메인에서 X, Y, Z 세 개 실체를 사용하여 문맥에 따라 선택지가 다르게 바인딩되는 문장 (예: "철학 프로그램은 프랑스나 스페인, 수학 프로그램은 독일이나 프랑스") 과 통제 문장 (단순 나열) 을 구성했습니다.
인간 실험 (1a, 1c): Prolific 을 통해 200 명 이상의 참가자를 모집하여 문장 완성 과제를 수행하게 했습니다. 문맥이 있는 경우 (Critical) vs. 문맥이 없는 경우 (Control) 에 'X'를 반복하는지 확인했습니다. 또한, 선택지의 순서 (Ordering) 가 결과에 미치는 영향을 분석했습니다.
모델 실험 (1b): Pythia, GPT-2, LLaMa 등 12 개의 다양한 크기의 오토레그레시브 언어 모델을 사용하여 동일한 과제를 수행했습니다. 모델이 다음 토큰으로 올바른 반복 단어 (X) 를 생성할 확률 (Generation Rate) 을 측정했습니다.

실험 2: 인과적 개입을 통한 문맥 바인딩 확인 (Activation Patching)

기법: 활성화 패치 (Activation Patching) 기법을 사용하여, 문맥이 다른 두 문장 (예: '물리학' 문맥과 '수학' 문맥) 에서 반복된 단어 ('France') 의 표현을 서로 교체 (patching) 했습니다.
목적: 반복된 단어가 문맥 정보 (철학 vs 수학) 와 인과적으로 결합 (bind) 되어 있는지 확인합니다. 즉, 'France'의 표현이 문맥에 따라 달라져야만 올바른 후속 문장 (suffix) 을 예측할 수 있는지 검증합니다.

실험 3: 어텐션 헤드의 메커니즘 분석

기법: Induction Heads (패턴 반복을 감지하는 어텐션 헤드) 의 어텐션 패턴을 분석했습니다.
목적: 모델이 문맥에 따라 어떤 'France' instance 를 선택적으로 주시 (attend) 하여 복사 (copy) 하는지, 그리고 통제 조건에서는 이를 억제하는지 확인합니다.

3. 주요 결과 (Key Results)

행동적 결과 (Behavioral Results)

인간과 모델의 일치: 인간과 충분히 큰 규모의 LLM 은 문맥이 있는 경우 (Critical) 에 반복된 단어를 자연스럽게 생성하는 반면, 통제 조건 (Control) 에서는 새로운 단어를 생성하거나 반복을 억제했습니다.
스케일링 효과 (Scaling Effect): 4 억 (400M) 파라미터 미만의 작은 모델은 문맥을 이해하지 못하고 단순히 최근 단어를 복사하는 '바보 같은 복사 (dumb copying)'를 보였습니다. 그러나 4 억 파라미터 이상의 모델들은 문맥에 따른 비중복적 반복을 성공적으로 수행했습니다.
순서 민감도 (Ordering Effects):
- LLM: 두 번째 선택지 (Second Disjunction) 의 표면적 순서 (Surface Order) 가 일치할 때 가장 높은 성능을 보였습니다.
- 인간: 실험 데이터상 순서 효과는 통계적으로 유의미하지 않았으나, 이는 데이터의 노이즈 때문일 가능성이 제기되었습니다.

메커니즘적 결과 (Mechanistic Results)

문맥 바인딩 (Contextual Binding): 활성화 패치 실험 결과, 반복된 단어 'France'의 표현은 문맥 정보 (예: '철학 프로그램' vs '수학 프로그램') 를 인과적으로 포함하고 있는 것으로 확인되었습니다. 이는 Mandelkern 의 '가능성 모달' 개념과 기능적으로 동등한 신경망 표현입니다.
Induction Heads 의 역할: Induction Heads 가 문맥에 따라 특정 'France' instance 에 선택적으로 어텐션하며, 이를 통해 반복을 허용하거나 억제하는 것을 확인했습니다. 특히 두 번째 선택지의 순서가 일치할 때 Induction Heads 의 활성화가 가장 강력했습니다.

4. 주요 기여 (Key Contributions)

신경망 기반 의미론 설명: 형식 의미론 (Symbolic Semantics) 으로 설명되던 '비중복적 중복 선택지' 현상을 신경망의 표현 학습과 어텐션 메커니즘을 통해 설명했습니다.
문맥 바인딩의 인과적 증거: 반복된 단어가 단순히 동일하지 않고, 문맥에 따라 인과적으로 다른 표현을 가지며 이것이 하류 예측을 결정한다는 것을 활성화 패치로 증명했습니다.
Induction Heads 의 기능 규명: Induction Heads 가 표면적 패턴 매칭을 통해 문맥이 허용하는 반복을 선택적으로 실행하는 메커니즘을 밝혔습니다.
규모와 능력의 상관관계: 4 억 파라미터 이상의 규모에서야 비로소 이러한 복잡한 문맥 바인딩 능력이 등장 (emerge) 함을 보였습니다.

5. 의의 및 결론 (Significance and Conclusion)

형식적 분석과 신경망 분석의 조화: Potts (2025) 의 주장을 지지하며, 기호적 분석 (Symbolic) 과 신경망 분석 (Neural) 은 정확도 손실 없이 동일한 현상을 설명할 수 있음을 보였습니다. Mandelkern 의 '모달 도메인'과 신경망의 '문맥적 토크 표현'은 기능적으로 동일한 결과를 낳습니다.
언어 모델의 해석 가능성: 복잡한 언어 현상을 블랙박스 모델 내부의 구체적인 메커니즘 (패치, 어텐션 헤드) 으로 설명함으로써, LLM 이 문맥을 어떻게 이해하고 처리하는지에 대한 통찰을 제공합니다.
향후 연구 방향: 인간과 모델 간의 순서 민감도 차이, 그리고 신경망 표현이 Mandelkern 의 '가능성 (possibility)' 개념을 얼마나 구체적으로 인코딩하는지에 대한 추가 연구가 필요함을 제기합니다.

요약하자면, 이 논문은 대규모 언어 모델이 반복되는 단어를 문맥에 따라 '중복'이 아닌 '필요한 정보'로 처리하는 메커니즘을 규명하여, 신경망 기반 언어 이해의 깊이를 보여주는 중요한 연구입니다.