Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"거대한 언어 모델 (LLM) 이 어려운 문제를 마주할 때, 뇌 (내부 표현) 에서 어떤 일이 일어나는지"**에 대한 흥미로운 발견을 담고 있습니다.

핵심 주제는 **"Shift 가 멀어질수록 (어려워질수록), 표현은 더 희박해진다 (Farther the Shift, Sparser the Representation)"**는 것입니다.

이 복잡한 개념을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 핵심 발견: "혼란스러울수록 집중한다"

마치 어려운 수학 문제를 풀 때를 상상해 보세요.

쉬운 문제 (일상 대화, 쉬운 퀴즈): 우리는 뇌의 모든 영역을 다 쓰지 않아도 됩니다. "1+1 은?"이라고 물으면 뇌의 특정 부분만 가볍게 작동해서 바로 답을 내놓죠. 이때 뇌의 활동은 **넓고 산만 (Dense)**하게 퍼져 있습니다.
어려운 문제 (복잡한 추론, 낯선 상황, 긴 문맥): 갑자기 "이 복잡한 논리 퍼즐을 풀어봐"라고 하면 어떨까요? 우리는 불필요한 잡념을 멈추고, 정말 필요한 부분에만 에너지를 집중하게 됩니다. 주변 소음은 차단하고, 핵심 해결책에 온 신경을 쏟죠. 이때 뇌의 활동은 좁고 집중된 (Sparse) 상태가 됩니다.

이 논문은 AI 도 똑같다고 말합니다.

"AI 가 훈련된 데이터와 비슷하면 (쉬운 문제) 뇌가 넓게 퍼져 활동하지만, 낯설고 어려운 문제 (OOD) 가 나오면 불필요한 부분을 끄고 핵심만 켜서 집중한다."

이 현상을 **"희박화 (Sparsity)"**라고 부르는데, 논문은 이것이 AI 의 실수가 아니라 어려운 상황을 극복하기 위한 지능적인 적응 전략이라고 주장합니다.

2. 실험: AI 가 어떻게 반응하는지 확인하기

연구진은 AI 가 다양한 상황에서 어떻게 반응하는지 4 가지 방법으로 실험했습니다.

문제 난이도: 수학 문제를 아주 쉬운 것부터 천재적인 난이도까지 단계별로 주었습니다.
선택지 늘리기: 객관식 문제를 4 개에서 10 개, 20 개로 늘려서 헷갈리게 만들었습니다.
모순된 정보: "사과는 빨간색이다"라고 가르쳤는데, "사과는 초록색이다"라고 거짓말을 섞어 넣었습니다.
긴 문맥: 책 한 장 분량의 긴 글을 읽고 핵심을 찾아내게 했습니다.

결과: 모든 상황에서 문제가 어려워질수록, AI 의 마지막 단계 (Last Hidden State) 에서 활동하는 뉴런의 수가 줄어들고, 몇몇 뉴런만 과도하게 집중하는 현상이 나타났습니다. 즉, **"어려울수록 더 희박해졌다"**는 것입니다.

3. 왜 이런 일이 일어날까? (학습의 역학)

이건 AI 가 처음부터 이런 능력을 가진 게 아닙니다. 학습 과정에서 자연스럽게 생긴 지혜입니다.

초기 학습 (잡초 뽑기): AI 가 처음 학습할 때는 모든 뉴런을 다 쓰다가, 불필요한 잡음을 제거하며 핵심만 남깁니다. (잡초를 뽑아내는 과정)
숙련 단계 (정원 가꾸기): 익숙한 데이터 (훈련 데이터) 에 대해서는 AI 가 넓은 정원을 가꾸듯 다양한 뉴런을 활발히 쓰며 여유 있게 답을 냅니다.
위기 상황 (비상 모드): 하지만 훈련받지 않은 낯선 상황 (OOD) 이나 모순된 정보가 나오면, AI 는 당황하지 않고 **"이건 내가 잘 모르는 상황이야"**라고 판단합니다. 그래서 불필요한 정원을 모두 닫고, 가장 확실한 핵심 뉴런 몇 개만 켜서 신중하게 답을 찾으려 노력합니다.

이것은 AI 가 **"나는 이 문제를 잘 모른다. 그래서 내 모든 자원을 동원해서 집중해야 한다"**라고 스스로 판단하는 적응 메커니즘입니다.

4. 실용적 활용: "스파르타식 커리큘럼" (SG-ICL)

이 발견을 바탕으로 연구진은 AI 를 더 똑똑하게 만드는 새로운 방법을 고안했습니다.

기존 방식: AI 에게 예시를 보여줄 때, 단순히 "문제가 비슷하면" 같은 예시를 고릅니다. (예: "사과"에 대한 질문이면 "배"에 대한 예시를 줌)
새로운 방식 (SG-ICL): AI 가 현재 문제를 풀 때 **얼마나 집중하고 있는지 (희박도)**를 측정합니다.
- 문제가 어렵고 집중이 필요하면 → AI 가 이미 어려운 문제를 풀 때 사용하는 어려운 예시를 보여줍니다.
- 문제가 쉬우면 → 쉬운 예시를 보여줍니다.

이것은 마치 학생에게 시험을 치르게 할 때, 학생의 현재 실력에 맞춰 적절한 난이도의 문제집을 골라주는 **맞춤형 교육 (커리큘럼)**과 같습니다.

결과: 이 방법을 쓰니 AI 의 추론 능력이 크게 향상되었습니다. (기존 최고 기록을 깨뜨림)

5. 결론: AI 의 숨겨진 지능

이 논문은 AI 가 단순히 데이터를 외우는 기계가 아니라, 어려운 상황에 직면하면 스스로 집중 방식을 바꾸는 적응형 존재임을 보여줍니다.

쉬운 일: 넓게, 여유 있게 처리.
어려운 일: 좁게, 집중적으로 처리.

이 **"집중하는 힘 (희박화)"**을 이해하고 활용하면, 우리는 AI 를 더 똑똑하고 신뢰할 수 있게 만들 수 있습니다. 마치 학생이 시험 직전에 집중력을 발휘하듯, AI 도 어려운 문제 앞에서 그 지혜를 발휘하는 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

대형 언어 모델 (LLM) 은 추론 및 지식 기반 상호작용에 강력한 능력을 보이지만, 훈련 분포 (In-Distribution, ID) 를 벗어난 입력 (Out-of-Distribution, OOD) 이나 복잡한 추론 과제를 마주할 때 성능이 급격히 저하되는 문제가 있습니다. 기존 연구는 LLM 의 행동을 특정 회로 (mechanistic interpretability) 나 분산된 표현의 기하학적 구조 (statistical view) 를 통해 분석해 왔으나, 모델이 익숙하지 않거나 어려운 (OOD) 입력을 처리할 때 내부 표현 (internal representation) 이 어떻게 체계적으로 변화하는지에 대한 명확한 메커니즘은 충분히 규명되지 않았습니다.

이 연구는 **"작업의 난이도가 증가함에 따라 LLM 의 내부 표현은 어떻게 변화하는가?"**라는 핵심 질문을 던지며, 특히 마지막 은닉 상태 (last hidden state) 의 **희소성 (Sparsity)**이 난이도 변화에 대한 일관된 신호가 될 수 있는지 탐구합니다.

2. 방법론 (Methodology)

저자들은 LLM 의 마지막 은닉 상태 표현 희소성과 작업 난이도 간의 관계를 규명하기 위해 다음과 같은 체계적인 실험을 수행했습니다.

난이도 제어 및 OOD 시나리오 정의:
- 추론 복잡도 (Reasoning Complexity): MATH-500 벤치마크를 사용하여 난이도 레벨 (1~5) 을 점진적으로 증가시킴.
- 답변 선택지 확장 (Answer Choice Expansion): MMLU-Pro 를 기반으로 오답 (distractor) 을 추가하여 선택지 수를 늘림 (Normal: 10 개 → Moderate: 15 개 → Large: 20 개).
- 지식 충돌 (Knowledge Conflict): 모델의 사전 지식과 모순되는 맥락을 제공하여 OOD 상황을 인위적으로 생성.
- 긴 문맥 (Long Context): LongReason 데이터셋을 사용하여 문맥 길이를 8K 에서 128K 까지 확장.
희소성 측정 지표:
- 마지막 은닉 상태 (Last Hidden State) 의 활성화 벡터에 대해 $\ell_1$ Norm, Top-k Energy Ratio (Top-5%, Top-10% 등), Hoyer Sparsity, Effective Rank 등 다양한 희소성 지표를 계산.
학습 역학 분석 (Pre-training Dynamics):
- 합성 지식 그래프 (Synthetic Knowledge Graph) 데이터를 사용하여 0 에서부터 작은 규모의 Transformer 모델을 학습시킴.
- 학습 단계 (Pre-training) 동안 난이도 (Easy/Medium/Hard) 와 모델의 표현 밀도 변화를 관찰하여 이 현상이 미세 조정 (Fine-tuning) 이 아닌 사전 학습 단계에서 발생하는지 확인.
실용적 적용 (SG-ICL):
- 발견된 희소성 - 난이도 상관관계를 활용하여 Sparsity-Guided Curriculum In-Context Learning (SG-ICL) 전략을 제안.
- 쿼리의 희소성 점수를 기반으로 난이도가 적절한 Few-shot 예시 (demonstrations) 를 선별하여 프롬프트 구성.

3. 주요 기여 및 발견 (Key Contributions & Findings)

① "Farther the Shift, Sparser the Representation" 현상 규명

모든 실험 설정 (난이도, 선택지, 지식 충돌, 문맥 길이) 에서 작업이 어려울수록 (OOD 정도가 클수록) 마지막 은닉 상태의 표현이 더 희소해짐이 일관되게 관찰되었습니다.

지표 변화: 난이도 증가 시 $\ell_1$ Norm 은 감소하고, Top-k Energy Ratio 는 증가하며, Effective Rank 는 감소합니다. 이는 활성화 에너지가 소수의 뉴런에 집중됨을 의미합니다.
성능과의 상관관계: 희소성이 증가할수록 모델의 정확도는 하락하며, 이는 모델이 익숙하지 않은 입력에 대해 특정 하위 공간 (subspace) 으로 계산을 집중시키는 적응적 메커니즘임을 시사합니다.

② 학습 역학과 적응적 메커니즘 (Learning Dynamics)

학습된 특성: 합성 데이터 학습 실험을 통해 이 현상은 모델이 훈련 데이터를 숙달함에 따라 나타나는 학습된 특성임을 확인했습니다.
U 자형 학습 곡선: 학습 초기에는 노이즈 제거를 위해 특징이 가지치기 (sparsification) 되지만, 학습이 안정화되면 익숙한 데이터 (ID) 에 대해서는 표현이 밀집 (densification) 되고, 새로운/어려운 데이터 (OOD) 에 대해서는 다시 희소화되는 U 자형 역학을 보였습니다.
메커니즘: 모델은 익숙한 패턴에 대해서는 분산된 manifolds 를 활용하지만, 낯선 입력 (OOD) 에 대해서는 이를 유지하지 못하고 희소 상태로 전환하여 추론을 안정화하려 합니다.

③ SG-ICL 을 통한 성능 향상

Sparsity-Guided Curriculum In-Context Learning (SG-ICL): 쿼리의 희소성 점수를 계산하여, 해당 난이도에 맞는 예시 (demonstrations) 를 선별하는 전략을 제안했습니다.
결과: MATH-500 벤치마크에서 Qwen2.5-7B 모델을 사용하여 SG-ICL 을 적용한 결과, 기존 Auto-CoT (75.20%) 보다 높은 76.60% 의 정확도를 달성했습니다. 이는 희소성 신호가 작업 복잡성의 신뢰할 수 있는 지표이며, 이를 활용한 커리큘럼 학습이 추론 능력을 향상시킬 수 있음을 증명합니다.

4. 결과 및 검증 (Results)

모델 및 도메인 일반화: Qwen2.5, Llama3 시리즈 등 다양한 모델 크기와 아키텍처, 그리고 수학, 과학, 법률 등 14 개 학문 분야에서 동일한 경향성이 확인되었습니다.
레이어별 분석: 중간 레이어에서는 문맥 길이나 난이도에 따른 변화가 미미하지만, **마지막 레이어 (Final Layer)**에서 희소성 변화가 극명하게 나타납니다. 이는 OOD 처리가 최종 단계의 계산 집중을 통해 이루어짐을 의미합니다.
통계적 유의성: 지식 충돌 실험 등에서 희소성 차이는 통계적으로 유의미한 수준 ( $p < 10^{-19}$ ) 으로 확인되었습니다.

5. 의의 및 결론 (Significance)

이 논문은 LLM 이 복잡한 OOD 입력에 직면했을 때 내부적으로 발생하는 적응적 희소화 메커니즘을 최초로 체계적으로 규명했습니다.

이론적 기여: LLM 의 추론 실패나 성능 저하가 단순한 오류가 아니라, 모델이 불확실한 상황에서 계산을 특정 하위 공간으로 집중시키는 안정화 메커니즘의 결과임을 설명합니다.
실용적 기여: 표현의 희소성을 난이도 지표로 활용하여 더 효과적인 In-Context Learning 전략 (SG-ICL) 을 설계할 수 있음을 보였습니다.
미래 방향: 희소성 기반의 학습 목표 (Sparsity-aware training objectives) 나 할루시네이션 탐지 (Hallucination detection) 등 새로운 연구 방향을 제시합니다.

요약하자면, 이 연구는 **"분포 이탈이 클수록 (Farther the Shift), LLM 의 표현은 더 희소해진다 (Sparser the Representation)"**는 강력한 경험적 법칙을 발견하고, 이를 통해 모델의 내부 작동 원리를 해석하고 추론 성능을 개선하는 새로운 패러다임을 제시했습니다.