Truth as a Trajectory: What Internal Representations Reveal About Large Language Model Reasoning

Each language version is independently generated for its own context, not a direct translation.

🧠 핵심 비유: "정적 사진" vs "움직이는 영화"

1. 기존 방법의 한계: "정지된 사진"으로 판단하기

지금까지 연구자들은 AI 가 답을 내놓을 때, 그 과정의 **어떤 한 순간 (특정 층)**의 상태를 마치 정지된 사진처럼 찍어서 분석했습니다.

상황: AI 가 "사과가 빨간색이다"라고 말할 때, 그 순간의 뇌 상태 (활성화) 를 사진으로 찍어 "이 사진이 맞으면 정답, 틀리면 오답"이라고 판단했습니다.
문제점: 이 방법은 AI 가 단순히 단어 패턴을 외워서 대답하는지, 진짜 이유를 생각해서 대답하는지 구별하기 어렵습니다. 마치 시험 문제의 정답을 외운 학생이 문제를 풀지 않고 정답만 외워서 맞히는 것과 비슷합니다. AI 는 "사과"라는 단어만 봐도 "빨간색"이라는 단어를 연상하는 경향이 있어, 진짜 논리 없이도 정답을 맞출 수 있기 때문입니다.

2. 이 논문의 제안 (TaT): "생각의 궤적"을 추적하기

이 논문은 **"진실은 궤적 (Trajectory) 이다"**라고 주장합니다. 즉, AI 의 생각 과정을 한 장의 사진이 아니라, 시간이 흐르며 그려지는 영화나 산책하는 사람의 발자국으로 봐야 한다고 말합니다.

비유: 산책하는 사람
- 정답을 아는 사람 (올바른 추론): 목적지까지 가는 길이 매끄럽고 일관된 경로를 그립니다. 길을 잃지 않고 논리적으로 다음 단계로 넘어갑니다.
- 단순 암기꾼 (잘못된 추론): 목적지는 맞지만, 가는 길이 갑자기 꺾이거나, 제자리에서 맴돌거나, 엉뚱한 방향으로 튕겨 나가는 불규칙한 궤적을 그립니다.

이 논문은 AI 가 단어를 하나씩 만들어내는 과정에서, **층 (Layer) 을 거칠 때마다 생각의 방향이 어떻게 변하는지 (이동 거리와 방향)**를 추적합니다.

🛠️ 어떻게 작동할까요? (구체적인 메커니즘)

1. '이동'을 측정하다 (Displacement)

기존에는 AI 의 '현재 상태'를 보았지만, 이 논문은 **'어떻게 변했는지'**를 봅니다.

비유: 친구가 "오늘 날씨 어때?"라고 물었을 때, 친구가 대답하기 전까지의 표정 변화를 보는 것이 아니라, 말을 시작해서 끝까지 말하는 동안의 입 모양과 손짓의 흐름을 보는 것과 같습니다.
효과: AI 가 "독한 말 (Toxic)"을 할 때, 단순히 나쁜 단어만 있는지 보는 게 아니라, 그 나쁜 단어를 선택하기 위해 AI 의 뇌가 어떻게 움직였는지를 봅니다. 그래서 "비유적으로 나쁜 말을 인용하는 상황"과 "진짜 나쁜 말을 하는 상황"을 구별할 수 있게 됩니다.

2. 학습된 '감각' (LSTM)

이 논문은 AI 의 생각 흐름 (궤적) 을 분석하는 작은 학습 모델 (LSTM) 을 사용합니다.

비유: 이 모델은 수천 번의 산책 기록을 보고 **"올바른 논리를 가진 사람은 이렇게 걷고, 엉터리 추론을 하는 사람은 저렇게 걷는다"**는 패턴을 학습합니다.
결과: 이 학습된 모델은 새로운 문제 (예: 처음 보는 퀴즈) 가 나오더라도, AI 가 그 문제를 풀 때 **걸음걸이 (궤적)**가 올바른지 틀린지 바로 알아맞힙니다.

🌟 이 방법이 왜 중요한가요? (실제 효과)

이 논문은 이 새로운 방법 (TaT) 이 기존 방법보다 훨씬 뛰어나다는 것을 증명했습니다.

다른 문제에도 잘 적용됨 (일반화):
- 비유: "수학 문제"를 풀 때의 걸음걸이를 학습한 모델이, "과학 문제"나 "일상 대화"에서도 올바른지 틀린지 잘 판단합니다. 기존 방법은 문제 유형이 바뀌면 망쳤지만, 이 방법은 논리적 사고의 '걸음걸이' 자체를 보므로 어떤 문제든 잘 맞춥니다.
악성 콘텐츠 감지:
- 비유: "비유적으로 욕을 하는 상황"과 "진짜 욕을 하는 상황"을 구별합니다. 기존 방법은 욕설 단어가 나오면 바로 "나쁜 것"이라고 했지만, 이 방법은 AI 가 그 단어를 선택할 때의 생각 흐름이 공격적인지 확인하므로 훨씬 정확합니다.
모델 자체보다 더 똑똑한 감시자:
- 흥미롭게도, 이 감시 모델 (TaT) 은 AI 가 스스로 몇 가지 예시를 보고 (Few-shot) 추론하는 것보다 더 정확하게 "이 답변이 논리적으로 맞는지"를 판단했습니다.

💡 결론: "생각의 흐름"을 읽는 새로운 눈

이 논문은 AI 를 단순히 정답을 맞추는 기계가 아니라, 생각을 이어가는 과정으로 바라보게 합니다.

기존: "이 사진이 정답인가?" (단순하고 표면적)
새로운 TaT: "이 사람이 목적지에 가기 위해 어떻게 걸어갔는가?" (깊이 있고 본질적)

이 방법은 AI 가 안전하고 신뢰할 수 있는지 확인하는 데, 특히 법률, 의료, 콘텐츠 필터링처럼 실수가 치명적인 분야에서 AI 의 '내면의 생각'을 검증하는 강력한 도구가 될 것입니다. 마치 AI 가 답을 말하기 전에, 그 답을 도출하는 생각의 발자국을 따라가며 "이건 진짜 생각한 거야, 아니면 그냥 외운 거야?"를 구별하는 것과 같습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

기존 방법론의 한계: 대규모 언어 모델 (LLM) 의 설명 가능성 (Explainability) 을 위한 기존 연구들은 주로 모델의 **잠재 상태 (Hidden States) 를 활성화 공간의 정적인 점 (Static Points)**으로 간주합니다. 즉, 특정 층 (Layer) 의 표현을 사용하여 옳은 추론과 잘못된 추론을 분리하려 합니다.
다의성 (Polysemanticity) 문제: 이러한 정적인 활성화 값은 어휘적 패턴, 구문 구조, 작업별 아티팩트 등이 혼합된 '다의적'인 특성을 띠고 있습니다. 이로 인해 선형 프로브 (Linear Probes) 는 실제 추론 구조가 아닌 표면적인 어휘적 패턴 (예: 특정 토큰의 존재 여부) 에 과도하게 의존하게 되어, 다른 도메인으로의 일반화가 어렵습니다.
정적 접근의 비효율성: "진실의 기하학 (Geometry of Truth)"은 작업마다 다르거나 직교적일 수 있으며, 특정 층을 선택하는 기준이 명확하지 않아 일관된 결과를 얻기 어렵습니다. 또한, 추론 과정은 정적인 상태의 집합이 아니라 층을 거치며 점진적으로 정제되는 동적 과정임에도 불구하고 이를 간과하고 있습니다.

2. 제안 방법론: Truth as a Trajectory (TaT)

저자들은 LLM 의 추론을 정적인 스냅샷이 아닌, **층 (Layer) 과 토큰 (Token) 을 가로지르는 반복적 정제의 궤적 (Trajectory)**으로 재정의합니다.

핵심 아이디어:
- 층별 변위 (Layer-wise Displacement) 분석: raw 활성화 값 자체가 아닌, 인접한 층 간의 활성화 벡터 차이 ( $\Delta h_\ell = h_{\ell+1} - h_\ell$ ) 를 분석합니다. 이는 정적인 어휘적 배경 (Static Background) 을 제거하고, 모델이 추론 과정에서 어떻게 표현을 업데이트하는지에 초점을 맞춥니다.
- 동적 궤적 모델링: 모든 토큰과 모든 층에 걸친 변위 벡터를 하나의 연속된 시퀀스로 구성하여, 추론 과정을 "궤적"으로 표현합니다.
- 학습 기반 분류기 (LSTM): 단순한 운동학적 지표 (속도, 가속도, 곡률 등) 는 다양한 작업에서 일관된 예측 신호를 제공하지 못했습니다. 따라서 저자들은 **LSTM(Long Short-Term Memory)**을 사용하여 이 궤적의 비선형 구조적 불변성 (Structural Invariants) 을 학습합니다.
- Privileged Basis Hypothesis: 변위 (Displacement) 를 통해 모델이 특정 특징에 대해 "적극적으로 업데이트 (Writing)"하고 있는지 여부를 정밀하게 포착하며, 이는 정적 상태보다 더 명확한 신호를 제공합니다.

3. 주요 기여 (Key Contributions)

궤적 기반 설명 가능성 (Trajectory-based Explainability): LLM 추론을 층과 토큰을 가로지르는 동적 과정으로 모델링하여, 개별 층에 국한되지 않는 추론의 기하학적 진화를 포착합니다.
작업 간 기하학적 불변성 (Cross-task Geometric Invariants): 활성화 값 자체가 아닌 '변위'를 분석함으로써 정적 어휘적 특징에 대한 의존성을 줄이고, 작업에 구애받지 않는 추론의 구조적 진화 과정을 드러냅니다.
행동 감지 확장: 복잡한 행동 특성 (예: 독성 언어 탐지) 에도 궤적 분석을 확장할 수 있음을 입증했습니다. 특히 문맥상 독성 단어가 인용된 경우와 실제 독성 의도를 구분하는 데 기존 선형 프로브보다 우월한 성능을 보입니다.

4. 실험 결과 (Results)

저자들은 Llama-3.1-8B, Qwen2.5-14B/32B, MoE 아키텍처 등 다양한 모델과 Commonsense Reasoning, Factuality, Toxicity Detection 등 다양한 벤치마크에서 TaT 를 평가했습니다.

범용 일반화 (Generalization):
- 한 데이터셋 (예: ARC-Challenge) 에서 학습된 TaT 분류기는 다른 작업 (OOD, Out-Of-Distribution) 에도 높은 성능을 보이며 일반화되었습니다.
- 반면, 기존 선형 프로브는 학습 데이터에 특화된 어휘 패턴을 학습하여 OOD 환경에서 성능이 급격히 저하되었습니다.
- TaT 는 모델 자체의 Zero-shot 및 Few-shot 성능을 능가하는 경우가 많았습니다.
독성 탐지 (Toxicity Detection):
- RealToxicityPrompts 및 ToxiGen 벤치마크에서 TaT 는 단순한 키워드 매칭이 아닌, 독성 생성의 기하학적 특성을 포착하여 **ToxiGen(OOD)**에서 선형 프로브 및 원시 활성화 (Raw Activation) 기반 모델보다 우수한 일반화 성능을 보였습니다.
변위의 중요성:
- 원시 활성화 (Raw Activations) 를 사용하는 모델은 인-도메인 (In-Distribution) 에서는 잘 작동하지만, 프롬프트 구조나 내용이 바뀌면 성능이 떨어지는 반면, **변위 (Displacement)**를 사용하는 TaT 는 이러한 변화에 강건했습니다.
순차적 역동성:
- 변위 벡터의 순서를 무시하고 평균을 내는(Set MLP) 방식보다, 순차적 의존성을 학습하는 LSTM 이 OOD 성능에서 우월함을 입증하여 추론 과정의 시간적/깊이적 진화가 중요함을 확인했습니다.

5. 의의 및 결론 (Significance)

새로운 해석 패러다임: LLM 의 내부 사고 과정을 정적인 상태가 아닌 동적 기하학적 궤적으로 해석함으로써, 모델이 어떻게 "생각"하는지에 대한 새로운 통찰을 제공합니다.
안전성 및 신뢰성: 표면적인 어휘적 편향에 덜 민감하여, 모델이 추론을 올바르게 수행하는지, 아니면 단순한 확률적 히트 (Spurious Correlation) 에 의존하는지를 더 정확하게 감지할 수 있습니다. 이는 법률, 콘텐츠 moderation 등 안전이 중요한 분야에서 모델의 신뢰성을 검증하는 데 필수적입니다.
실용성: 경량 LSTM 분류기를 사용하므로 계산 오버헤드가 크지 않으며, 모델의 추론 과정 전체를 모니터링하는 데 효과적입니다.

결론적으로, 이 논문은 LLM 의 추론 유효성을 판단할 때 정적인 표현보다는 **활성화의 변화 궤적 (Trajectory of Activations)**을 분석하는 것이 더 강력하고 일반화 가능한 신호를 제공함을 입증했습니다.