Beyond Scalars: Evaluating and Understanding LLM Reasoning via Geometric Progress and Stability

이 논문은 LLM 의 추론 신뢰성을 평가하기 위해 확률적 스칼라 대신 '진전 (Progress)'과 '안정성 (Stability)'이라는 기하학적 개념을 도입한 TRACED 프레임워크를 제안하며, 이를 통해 할루시네이션과 올바른 추론을 구별하고 기계적 사고의 내부 역학을 해석할 수 있음을 보여줍니다.

Xinyan Jiang, Ninghao Liu, Di Wang, Lijie Hu

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"LLM(거대 언어 모델) 이 정말로 생각하고 있는 건지, 아니면 그냥 헛소리를 지어내고 있는지를 어떻게 알 수 있을까?"**라는 질문에 대한 새로운 답을 제시합니다.

기존에는 AI 가 답을 낼 때 "이 확률로 맞을 거야"라고 숫자 (스칼라) 만 보고 판단했는데, 이 논문은 **"AI 의 생각 과정이 어떻게 움직이는지 (기하학적 궤적)"**를 분석하여 훨씬 더 정확하게 판단할 수 있다고 말합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


🚗 비유: "산책하는 사람 vs 헤매는 사람"

AI 가 문제를 풀 때의 생각 과정 (Chain-of-Thought) 을 산책하는 사람이라고 상상해 보세요.

1. 기존의 방식 (숫자만 보는 것)

기존에는 "이 사람이 목적지에 도착할 확률이 80% 야"라고만 봤습니다. 하지만 그 사람이 정말 목적지로 가고 있는지, 아니면 제자리에서 빙글빙글 돌고 있는지는 알 수 없었습니다.

2. 새로운 방식 (TRACED): "걸음걸이와 방향" 분석

이 논문은 AI 의 생각 과정을 지도 위의 발자국으로 분석합니다. 여기서 두 가지 핵심 지표를 봅니다.

  • 📍 진행도 (Progress = 이동 거리):
    • 올바른 생각: 목적지 (정답) 로 향해 꾸준히 앞으로 나아갑니다. 발걸음이 멀리 이동하죠.
    • 틀린 생각 (환각): 제자리에서 맴돌거나, 같은 말을 반복합니다. 이동 거리가 거의 없습니다.
  • 🌀 안정성 (Stability = 궤적의 굽힘):
    • 올바른 생각: 직선처럼 매끄럽고 일관된 방향으로 갑니다. 꺾임이 거의 없죠.
    • 틀린 생각: "아니, 저게 아니야", "잠깐, 다시 생각해보자" 하며 좌우로 급격히 꺾이거나 제자리에서 흔들립니다. 궤적이 매우 구불구불하고 불안정합니다.

🔍 핵심 발견: "주저하는 고리" vs "확신의 축적"

논문의 가장 재미있는 부분은 이 두 가지 현상을 인간의 심리와 연결했다는 점입니다.

  • 높은 궤적 굽힘 (구불구불한 길) = "주저하는 고리 (Hesitation Loop)"
    • AI 가 "아니야, 다시 생각해보자"라고 하며 **Exploration(탐색)**과 Reflection(반성) 사이를 오갈 때 발생합니다.
    • 마치 미로에서 길을 잃고 좌우를 두리번거리며 제자리걸음을 하는 것과 같습니다. 이동은 안 되는데 궤적만 구불구불합니다.
  • 높은 이동 거리 (직진) = "확신의 축적 (Certainty Accumulation)"
    • AI 가 논리를 차곡차곡 쌓아 올리며 **"따라서 정답은 이거다"**라고 결론을 내릴 때 발생합니다.
    • 마치 목표물을 향해 탄도처럼 직진하는 것과 같습니다.

🛠️ 이 기술이 왜 중요할까요?

  1. 실시간 감시 가능: 정답을 미리 알고 있는 사람 (교사나 검증 모델) 이 없어도, AI 가 생각하는 순간순간의 움직임만 봐도 "이건 헛소리야"라고 알아챌 수 있습니다.
  2. 어떤 문제든 통용: 수학 문제 (엄격한 논리) 이든, 이야기 해석 (유연한 사고) 이든, 움직임의 패턴만 보면 다 알아챕니다.
  3. 빠르고 가벼움: 무거운 추가 계산 없이, AI 가 이미 만들어낸 생각의 흔적 (데이터) 만으로 바로 판단할 수 있어 속도가 매우 빠릅니다.

💡 요약

이 논문은 "AI 가 정답을 맞췄는지 아닌지"를 결과만 보고 판단하는 게 아니라, "AI 가 어떻게 생각했는지 (움직임의 패턴)"를 보고 판단하자고 제안합니다.

  • 올바른 생각: "직진하며 멀리 가는" 매끄러운 산책.
  • 틀린 생각: "제자리에서 빙빙 도는" 구불구불한 헤매기.

이처럼 **기하학 (모양과 움직임)**을 이용해 AI 의 두뇌 속을 들여다봄으로써, 더 신뢰할 수 있는 AI 를 만드는 데 큰 도움을 줄 수 있는 방법론입니다.