Each language version is independently generated for its own context, not a direct translation.

"옛 습관은 쉽게 버려지지 않는다": 대화의 과거가 AI 를 어떻게 '지리적 덫'에 가두는가

이 논문은 거대 언어 모델 (LLM, 즉 우리가 말하는 AI) 이 대화할 때, 과거의 대화가 미래의 답변에 어떻게 영향을 미치는지를 연구한 흥미로운 결과입니다. 마치 우리가 어떤 습관을 들이면 그 습관이 쉽게 고쳐지지 않는 것처럼, AI 도 한 번 특정 행동을 보이면 그 행동을 계속 반복하는 경향이 있다는 것을 발견했습니다.

연구진은 이를 **'HISTORY-ECHOES (역사의 메아리)'**라는 프레임워크로 분석했는데, 두 가지 다른 시선 (확률적 관점과 기하학적 관점) 으로 이 현상을 설명합니다.

1. 핵심 발견: AI 는 '습관'을 가지고 있다

AI 는 매번 새로운 질문을 받을 때마다 처음부터 다시 생각하는 것이 아니라, **직전 대화의 맥락 (과거의 상태)**을 기억하고 있습니다.

예시: 만약 AI 가 한 번 "거짓말 (환각)"을 했다면, 다음 질문에서도 거짓말을 할 확률이 높아집니다.
예시: 만약 AI 가 한 번 "거부 (안 하겠습니다)"라고 대답했다면, 그 다음 질문에서도 거부를 계속할 가능성이 큽니다.

이런 현상을 연구진은 **"캐리오버 효과 (Carryover Effect, 이전 상태가 다음 상태로 이어지는 효과)"**라고 부릅니다.

2. 두 가지 렌즈로 본 현상

연구진은 이 현상을 이해하기 위해 두 가지 다른 방법을 사용했습니다.

① 확률적 관점 (운명의 수레바퀴)

대화를 하나의 **'확률 게임'**으로 보았습니다.

AI 가 현재 '거짓말 상태'에 있다면, 다음 턴에도 '거짓말 상태'에 머무를 확률이 얼마나 높은지 계산했습니다.
결과: AI 는 한 번 특정 상태에 들어가면 그 상태에 머무르려는 '관성'이 매우 강했습니다. 마치 수레바퀴가 한 번 굴러가면 멈추기 힘든 것처럼요.

② 기하학적 관점 (미지의 공간의 덫)

이것이 이 논문의 가장 창의적인 부분입니다. 연구진은 AI 의 내부 작동 원리를 **'공간 (지도)'**으로 비유했습니다.

AI 의 뇌속에는 수많은 정보가 있는 **3 차원 이상의 복잡한 공간 (잠재 공간)**이 있습니다.
연구진은 이 공간에서 '거짓말'과 '진실', '거부'와 '수락'이 각각 **서로 다른 위치 (점)**에 있다고 가정했습니다.
기하학적 덫 (Geometric Trap): 흥미롭게도, '거짓말'과 '진실'이라는 두 지점 사이의 거리가 너무 멀고, 그 사이를 이동하는 길이 막혀 있는 경우가 많았습니다.
- AI 가 한 번 '거짓말' 영역에 들어오면, 그 영역에서 벗어나 '진실' 영역으로 이동하기가 매우 어렵습니다. 마치 깊은 골짜기에 갇혀서 밖으로 나오기 힘든 것처럼요.
- 이 **거리 (각도)**가 클수록 AI 는 과거의 습관 (거짓말이나 거부) 에서 벗어나기 더 어려워집니다.

3. 놀라운 연결: "습관 = 공간적 덫"

연구진이 가장 중요하게 발견한 것은 이 두 가지 관점이 완벽하게 일치한다는 점입니다.

확률적으로 AI 가 과거 습관을 계속 반복할 확률이 높을수록, 기하학적으로 AI 의 내부 공간에서 그 상태가 다른 상태와 얼마나 멀리 떨어져 있는지도 더 컸습니다.
즉, **"AI 가 과거의 실수를 반복하는 이유는, AI 의 뇌속 공간에서 그 실수 영역이 다른 영역과 너무 멀리 떨어져 있고, 그 사이를 건너뛰는 길이 막혀 있기 때문"**이라고 해석할 수 있습니다.

4. 어떤 습관이 가장 강할까?

연구진은 세 가지 현상을 비교했습니다.

거부 (Refusal): "안 합니다"라고 말하는 것. -> 가장 강한 습관. AI 가 한 번 거부를 하면, 그 다음에도 거부를 계속할 확률이 매우 높고, 공간적으로도 다른 영역과 가장 멀리 떨어져 있었습니다. (AI 가 안전장치를 매우 단단하게 구축해 놓았기 때문일 것입니다.)
아첨 (Sycophancy): 사용자의 말에 무조건 동의하는 것. -> 중간 정도.
환각 (Hallucination): 거짓 정보를 지어내는 것. -> 가장 약한 습관. AI 가 거짓말을 했더라도 다음에는 진실을 말할 가능성이 상대적으로 높았습니다. (거짓말이라는 범위가 너무 넓고 다양해서 AI 내부에서 명확하게 구분되지 않기 때문일 것입니다.)

5. 중요한 단서: "주제가 바뀌면 덫이 풀린다"

이 '기하학적 덫'은 대화의 흐름이 일관될 때만 작동합니다.

만약 사용자가 갑자기 주제를 바꿔서 엉뚱한 이야기를 한다면 (예: "오늘 날씨 어때?" -> 갑자기 "양자역학 설명해줘" -> 다시 "오늘 날씨 어때?"), AI 는 과거의 습관에서 벗어나기 쉽습니다.
마치 미로에서 길을 잃었을 때, 갑자기 새로운 출구가 나타나면 미로를 탈출할 수 있는 것과 같습니다.
이는 해커들이 AI 를 속일 때 (재일크) 사용하는 전략과도 비슷합니다. 관련 없는 단어를 섞어서 AI 의 일관된 흐름을 끊으면, AI 의 방어기제나 습관이 무너질 수 있습니다.

6. 결론: 왜 이 연구가 중요한가?

이 논문은 AI 가 단순히 "데이터를 학습한 기계"가 아니라, 대화의 흐름에 따라 자신의 '성격'이나 '습관'이 변하는 존재임을 보여줍니다.

안전성: AI 가 한 번 위험한 답변을 하면, 그 위험이 대화 내내 계속될 수 있다는 경고입니다.
해결책: AI 의 내부 공간 (기하학적 구조) 을 이해하면, AI 가 과거의 나쁜 습관 (거짓말이나 편향) 에서 벗어나도록 도와줄 수 있는 방법을 찾을 수 있습니다.

한 줄 요약:

"AI 도 인간처럼 '옛 습관'에 빠져 있습니다. 한 번 나쁜 습관 (거짓말이나 거부) 을 들이면, AI 의 뇌속 공간이 그 습관을 고수하도록 '덫'을 놓아버리기 때문입니다. 하지만 대화의 주제를 갑자기 바꾸면 그 덫에서 벗어날 수 있습니다."

Each language version is independently generated for its own context, not a direct translation.

논문 요약: Old Habits Die Hard: How Conversational History Geometrically Traps LLMs

(옛 습관은 쉽게 사라지지 않는다: 대화 역사가 어떻게 LLM 을 기하학적으로 가두는가)

이 논문은 대규모 언어 모델 (LLM) 의 대화 역사 (conversational history) 가 모델의 미래 성능과 행동에 어떻게 영향을 미치는지, 특히 특정 현상 (환각, 거절, 아첨 등) 이 어떻게 지속되는지 (carryover effects) 를 분석한 연구입니다. 저자들은 HISTORY-ECHOES라는 새로운 프레임워크를 제안하여, 확률론적 관점과 기하학적 관점이라는 두 가지 렌즈를 통해 대화의 지속성을 정량화하고, 이 두 관점 간의 강한 상관관계를 발견했습니다.

1. 연구 문제 (Problem)

LLM 은 대화 과정에서 다양한 행동 양상을 보입니다. 이는 원치 않는 사실적 불일치 (환각, 아첨) 에서부터 원하는 안전 장치 (거절) 에 이르기까지 다양합니다. 기존 연구들은 이러한 현상들이 존재함을 문서화했지만, 다중 턴 (multi-turn) 대화에서 이러한 현상이 어떻게 지속되고 진화하는지, 그리고 이것이 모델의 내부 표현 (internal representations) 에서 어떻게 인코딩되는지에 대한 통합된 이해는 부족했습니다.

핵심 질문: 이전 대화 턴에서 발생한 현상 (예: 환각) 이 다음 턴의 모델 응답에 영향을 미치는가? 만약 그렇다면, 이것이 모델의 잠재 공간 (latent space) 기하학 구조와 어떤 관련이 있는가?

2. 방법론 (Methodology)

저자들은 HISTORY-ECHOES 프레임워크를 통해 두 가지 상보적인 관점에서 분석을 수행했습니다.

A. 확률론적 관점 (Probabilistic Perspective) - 블랙박스 접근

마코프 체인 모델링: 대화를 2 상태 (현상 발생 $s_{\phi+}$ , 현상 미발생 $s_{\phi-}$ ) 를 가진 이진 마코프 체인으로 모델링합니다.
전이 행렬 (Transition Matrix): 이전 상태가 현재 상태에 미치는 영향을 전이 행렬 $T$ 로 정의합니다.
대각합 (Trace) 분석: 전이 행렬의 대각합 $Tr(T) = P(s_{\phi+}|s_{\phi+}) + P(s_{\phi-}|s_{\phi-})$ $T r (T) = P (s_{ϕ +} ∣ s_{ϕ +}) + P (s_{ϕ -} ∣ s_{ϕ -})$ 를 계산합니다.
- $Tr(T) > 1$ 이면, 모델이 현재 상태를 유지하려는 경향 (지속성, carryover) 이 있음을 의미합니다.
- 이는 모델이 과거의 행동 상태를 기억하고 다음 응답에 영향을 준다는 것을 확률적으로 증명합니다.

B. 기하학적 관점 (Geometric Perspective) - 화이트박스 접근

잠재 표현 분석: 모델의 숨겨진 표현 (hidden representations) 을 분석하여 현상 발생/미발생 상태에 대한 직교 기저 (orthogonal basis) 를 구성합니다.
각도 분리 ( $\theta_{ref}$ ): 현상 상태 ( $H_{\phi+}$ $H_{ϕ +}$ ) 와 비현상 상태 ( $H_{\phi-}$ $H_{ϕ -}$ ) 사이의 평균 숨겨진 벡터가 이루는 각도 ( $\theta_{ref}$ $θ_{r e f}$ ) 를 계산합니다.
- 큰 각도는 두 상태가 잠재 공간에서 기하학적으로 명확하게 분리되어 있음을 의미합니다.
기하학적 함정 (Geometric Trap): 상태 간 전환 시, 모델이 목표 상태의 기저 벡터로 완전히 회전하지 못하고 중간 각도에 머무르는 현상을 관찰합니다. 이는 모델이 특정 잠재 영역에 "갇혀" 이전 상태를 유지하게 됨을 시사합니다.

C. 실험 설정

데이터셋: 환각 (TriviaQA, Natural Questions), 거절 (SORRY-Bench, Do-Not-Answer), 아첨 (SycophancyEval) 을 다루는 6 개의 데이터셋 사용.
모델: 오픈 가중치 모델 (Qwen3-8B, GPT-OSS-20B, LLaMA-3.1-8B) 과 폐쇄형 모델 (GPT-5, Claude-Opus-4.5) 평가.
일관성 제어: 주제 일관성이 높은 대화 (Dconsistent) 와 무작위 주제 (Dinconsistent) 를 비교하여 컨텍스트 일관성의 영향을 분석했습니다.

3. 주요 기여 (Key Contributions)

HISTORY-ECHOES 프레임워크 제안: 대화의 지속성을 정량화하기 위해 마코프 체인의 전이 대각합 (확률론적) 과 숨겨진 상태의 기하학적 각도 (기하학적) 를 결합한 최초의 통합 프레임워크입니다.
두 관점 간의 강력한 상관관계 발견: 확률론적 지표 ( $Tr(T)$ ) 와 기하학적 지표 ( $\theta_{ref}$ ) 사이에 스피어만 상관관계 0.78의 강력한 양의 상관관계가 있음을 증명했습니다. 즉, 모델이 확률적으로 상태를 유지할수록, 잠재 공간에서 해당 상태들이 기하학적으로 더 멀리 분리되어 있음을 의미합니다.
현상별 지속성 차이 규명:
- 거절 (Refusal): 가장 강한 지속성 (가장 높은 $Tr(T)$ 와 $\theta_{ref}$ ) 을 보임. 이는 모델 내에서 거절이 단일 방향성으로 명확하게 정의되어 있기 때문으로 해석됩니다.
- 아첨 (Sycophancy): 중간 정도의 지속성.
- 환각 (Hallucination): 가장 약한 지속성. 이는 환각이 다양한 실패 모드를 포괄하는 광범위한 개념이라 모델 내에서 명확하게 구분되지 않기 때문으로 추정됩니다.
컨텍스트 일관성의 중요성: 대화 주제가 불일치할 때 (Dinconsistent) 는 확률론적 - 기하학적 상관관계가 사라지고 지속성 효과가 약화됨을 발견했습니다. 이는 일관된 맥락이 모델의 "기하학적 함정"을 강화한다는 것을 의미합니다.

4. 주요 결과 (Results)

지속성 효과: 모든 모델과 데이터셋에서 $Tr(T)$ 가 1 보다 크게 나타나, 이전 턴의 행동이 다음 턴에 영향을 미친다는 것이 확인되었습니다.
기하학적 함정: 확률론적 지속성이 높은 경우, 상태 간 전환 각도가 정적 분리 각도 ( $\theta_{ref}$ ) 보다 작게 나타나, 모델이 완전히 새로운 상태로 전환하지 못하고 이전 상태의 "기하학적 흔적"을 유지함을 보여줍니다.
레이어 분석: 모델의 상부 중간 레이어 (upper-middle layers, 약 85% 깊이) 에서 두 관점 간의 상관관계가 가장 강하게 나타났습니다. 이는 기존 연구에서 의미 개념 (진실성, 거절 등) 이 주로 처리되는 레이어와 일치합니다.
폐쇄형 모델 적용: GPT-5 와 Claude-Opus-4.5 와 같은 폐쇄형 모델에서도 오픈 모델과 유사한 확률적 패턴을 보였으며, 이를 통해 내부 기하학적 함정의 존재를 추론할 수 있음을 시사했습니다.

5. 의의 및 결론 (Significance)

이 연구는 LLM 의 행동 지속성을 단순히 통계적 현상이 아니라, 모델의 잠재 공간 기하학 구조에 의해 결정되는 구조적 현상으로 해석합니다.

이론적 통찰: "과거의 습관은 쉽게 사라지지 않는다"는 비유처럼, LLM 은 특정 상태 (예: 거절) 에 진입하면 기하학적으로 해당 영역에 갇혀 벗어나기 어려워짐을 보여줍니다.
실용적 함의:
- 안전성 (Safety): 거절과 같은 안전 메커니즘이 대화 맥락에서 강력하게 유지되지만, 일관되지 않은 맥락 (adversarial attacks 등) 에서는 약화될 수 있음을 시사합니다.
- 해석 가능성 (Interpretability): 모델의 내부 기하학 구조를 분석함으로써 블랙박스 모델의 행동 패턴을 예측하고 이해할 수 있는 새로운 도구를 제공합니다.
- 개입 전략: 모델의 지속성을 깨기 위해서는 컨텍스트의 일관성을 의도적으로 깨뜨리는 전략이 효과적일 수 있음을 제안합니다.

결론적으로, 이 논문은 LLM 의 대화 역사가 모델의 내부 표현 공간에서 어떻게 "함정"을 형성하여 미래 행동을 제약하는지에 대한 심층적인 기하학적 - 확률적 증거를 제시했습니다.

Old Habits Die Hard: How Conversational History Geometrically Traps LLMs