Truth as a Trajectory: What Internal Representations Reveal About Large Language Model Reasoning

이 논문은 LLM 의 추론을 고정된 활성화가 아닌 층 간 기하학적 이동 궤적으로 모델링하여 '진실 궤적 (Truth as a Trajectory)'을 제안함으로써, 기존 탐지법의 어휘적 편향을 극복하고 추론의 유효성을 더 정확하게 식별할 수 있음을 보여줍니다.

Hamed Damirchi, Ignacio Meza De la Jara, Ehsan Abbasnejad, Afshar Shamsi, Zhen Zhang, Javen Shi

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧠 핵심 비유: "정적 사진" vs "움직이는 영화"

1. 기존 방법의 한계: "정지된 사진"으로 판단하기

지금까지 연구자들은 AI 가 답을 내놓을 때, 그 과정의 **어떤 한 순간 (특정 층)**의 상태를 마치 정지된 사진처럼 찍어서 분석했습니다.

  • 상황: AI 가 "사과가 빨간색이다"라고 말할 때, 그 순간의 뇌 상태 (활성화) 를 사진으로 찍어 "이 사진이 맞으면 정답, 틀리면 오답"이라고 판단했습니다.
  • 문제점: 이 방법은 AI 가 단순히 단어 패턴을 외워서 대답하는지, 진짜 이유를 생각해서 대답하는지 구별하기 어렵습니다. 마치 시험 문제의 정답을 외운 학생이 문제를 풀지 않고 정답만 외워서 맞히는 것과 비슷합니다. AI 는 "사과"라는 단어만 봐도 "빨간색"이라는 단어를 연상하는 경향이 있어, 진짜 논리 없이도 정답을 맞출 수 있기 때문입니다.

2. 이 논문의 제안 (TaT): "생각의 궤적"을 추적하기

이 논문은 **"진실은 궤적 (Trajectory) 이다"**라고 주장합니다. 즉, AI 의 생각 과정을 한 장의 사진이 아니라, 시간이 흐르며 그려지는 영화산책하는 사람의 발자국으로 봐야 한다고 말합니다.

  • 비유: 산책하는 사람
    • 정답을 아는 사람 (올바른 추론): 목적지까지 가는 길이 매끄럽고 일관된 경로를 그립니다. 길을 잃지 않고 논리적으로 다음 단계로 넘어갑니다.
    • 단순 암기꾼 (잘못된 추론): 목적지는 맞지만, 가는 길이 갑자기 꺾이거나, 제자리에서 맴돌거나, 엉뚱한 방향으로 튕겨 나가는 불규칙한 궤적을 그립니다.

이 논문은 AI 가 단어를 하나씩 만들어내는 과정에서, **층 (Layer) 을 거칠 때마다 생각의 방향이 어떻게 변하는지 (이동 거리와 방향)**를 추적합니다.


🛠️ 어떻게 작동할까요? (구체적인 메커니즘)

1. '이동'을 측정하다 (Displacement)

기존에는 AI 의 '현재 상태'를 보았지만, 이 논문은 **'어떻게 변했는지'**를 봅니다.

  • 비유: 친구가 "오늘 날씨 어때?"라고 물었을 때, 친구가 대답하기 전까지의 표정 변화를 보는 것이 아니라, 말을 시작해서 끝까지 말하는 동안의 입 모양과 손짓의 흐름을 보는 것과 같습니다.
  • 효과: AI 가 "독한 말 (Toxic)"을 할 때, 단순히 나쁜 단어만 있는지 보는 게 아니라, 그 나쁜 단어를 선택하기 위해 AI 의 뇌가 어떻게 움직였는지를 봅니다. 그래서 "비유적으로 나쁜 말을 인용하는 상황"과 "진짜 나쁜 말을 하는 상황"을 구별할 수 있게 됩니다.

2. 학습된 '감각' (LSTM)

이 논문은 AI 의 생각 흐름 (궤적) 을 분석하는 작은 학습 모델 (LSTM) 을 사용합니다.

  • 비유: 이 모델은 수천 번의 산책 기록을 보고 **"올바른 논리를 가진 사람은 이렇게 걷고, 엉터리 추론을 하는 사람은 저렇게 걷는다"**는 패턴을 학습합니다.
  • 결과: 이 학습된 모델은 새로운 문제 (예: 처음 보는 퀴즈) 가 나오더라도, AI 가 그 문제를 풀 때 **걸음걸이 (궤적)**가 올바른지 틀린지 바로 알아맞힙니다.

🌟 이 방법이 왜 중요한가요? (실제 효과)

이 논문은 이 새로운 방법 (TaT) 이 기존 방법보다 훨씬 뛰어나다는 것을 증명했습니다.

  1. 다른 문제에도 잘 적용됨 (일반화):

    • 비유: "수학 문제"를 풀 때의 걸음걸이를 학습한 모델이, "과학 문제"나 "일상 대화"에서도 올바른지 틀린지 잘 판단합니다. 기존 방법은 문제 유형이 바뀌면 망쳤지만, 이 방법은 논리적 사고의 '걸음걸이' 자체를 보므로 어떤 문제든 잘 맞춥니다.
  2. 악성 콘텐츠 감지:

    • 비유: "비유적으로 욕을 하는 상황"과 "진짜 욕을 하는 상황"을 구별합니다. 기존 방법은 욕설 단어가 나오면 바로 "나쁜 것"이라고 했지만, 이 방법은 AI 가 그 단어를 선택할 때의 생각 흐름이 공격적인지 확인하므로 훨씬 정확합니다.
  3. 모델 자체보다 더 똑똑한 감시자:

    • 흥미롭게도, 이 감시 모델 (TaT) 은 AI 가 스스로 몇 가지 예시를 보고 (Few-shot) 추론하는 것보다 더 정확하게 "이 답변이 논리적으로 맞는지"를 판단했습니다.

💡 결론: "생각의 흐름"을 읽는 새로운 눈

이 논문은 AI 를 단순히 정답을 맞추는 기계가 아니라, 생각을 이어가는 과정으로 바라보게 합니다.

  • 기존: "이 사진이 정답인가?" (단순하고 표면적)
  • 새로운 TaT: "이 사람이 목적지에 가기 위해 어떻게 걸어갔는가?" (깊이 있고 본질적)

이 방법은 AI 가 안전하고 신뢰할 수 있는지 확인하는 데, 특히 법률, 의료, 콘텐츠 필터링처럼 실수가 치명적인 분야에서 AI 의 '내면의 생각'을 검증하는 강력한 도구가 될 것입니다. 마치 AI 가 답을 말하기 전에, 그 답을 도출하는 생각의 발자국을 따라가며 "이건 진짜 생각한 거야, 아니면 그냥 외운 거야?"를 구별하는 것과 같습니다.