Spilled Energy in Large Language Models

이 논문은 LLM 의 최종 소프트맥스 분류기를 에너지 기반 모델로 재해석하여, 추가적인 학습 없이 출력 로짓에서 도출된 '누출된 에너지'와 '마진화된 에너지' 지표를 통해 사실적 오류와 환각을 효과적으로 탐지하는 새로운 방법을 제안합니다.

Adrian Robert Minut, Hazem Dewidar, Iacopo Masi

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

거대한 언어 모델의 '에너지 누수'를 찾아서: AI 가 거짓말을 할 때의 신호

이 논문은 최신 인공지능 (LLM) 이 왜 때때로 엉뚱한 거짓말 (할루시네이션) 을 하는지, 그리고 어떻게 추가적인 학습 없이 그 거짓말을 잡아낼 수 있는지에 대한 새로운 방법을 소개합니다.

핵심 아이디어를 쉽게 이해할 수 있도록 전기와 수도관, 그리고 무게 달기에 비유해 설명해 드리겠습니다.


1. 문제: AI 는 왜 거짓말을 할까요?

대형 언어 모델 (LLM) 은 방대한 데이터를 학습했지만, 사실은 "통계적 확률"로 다음 단어를 추측할 뿐입니다. 마치 기억력이 좋은 하지만 때때로 헷갈리는 친구처럼, 확률이 높은 단어를 나열하다 보니 사실과 다른 내용을 자연스럽게 만들어내기도 합니다.

기존에는 이 거짓말을 찾기 위해 AI 내부의 복잡한 신호를 분석하는 '탐지기 (프로브)'를 따로 훈련시켜야 했습니다. 하지만 이 탐지기는 한 가지 일에만 특화되어 있어, 다른 일을 시키면 잘 작동하지 않는다는 문제가 있었습니다.

2. 해결책: '누수된 에너지 (Spilled Energy)' 찾기

저자들은 AI 의 마지막 단계를 **에너지 기반 모델 (EBM)**로 재해석했습니다. 이를 쉽게 비유하자면 다음과 같습니다.

💡 비유: 완벽한 수도관 시스템

  • 이상적인 상황: AI 가 문장을 만들 때, 각 단어가 다음 단어로 이어지는 과정은 완벽하게 연결된 수도관과 같습니다.
    • 1 단계에서 "물 (에너지)"을 보냈다면, 2 단계에서는 그 물이 그대로 흘러가야 합니다. 이론상, 들어간 물과 나온 물의 양은 반드시 같아야 합니다.
  • 실제 상황 (거짓말): 하지만 AI 가 거짓말을 하거나 헷갈릴 때는, 이 수도관 연결부에서 물이 새는 (누수되는) 현상이 발생합니다.
    • 1 단계에서 계산한 '물량'과 2 단계에서 실제로 흘러나온 '물량'이 달라지는 것입니다.
    • 저자들은 이 **물량 차이 (누수된 에너지)**를 **'Spilled Energy (누수된 에너지)'**라고 부릅니다.

3. 어떻게 작동하나요? (두 가지 측정 도구)

이 연구는 AI 가 단어를 하나씩 만들어갈 때, 이 '누수'가 얼마나 발생하는지 두 가지 방식으로 측정합니다.

  1. 누수량 측정 (Spilled Energy, ΔE\Delta E):

    • "이전 단계에서 보낸 에너지"와 "다음 단계에서 계산된 에너지"를 비교합니다.
    • 진실한 답변: 수도관이 잘 연결되어 있어 누수가 거의 없습니다 (누수량 \approx 0).
    • 거짓말: 연결이 불안정해 물이 새어 나갑니다 (누수량 \uparrow).
    • 예시: "이탈리아의 수도는 로마입니다"라고 할 때는 에너지가 잘 맞지만, "시드니입니다"라고 거짓말을 할 때는 에너지 균형이 깨져 큰 누수 신호가 나옵니다.
  2. 단순 에너지 측정 (Marginal Energy, EmE_m):

    • 특정 순간에 AI 가 얼마나 확신을 가지고 있는지를 한 번에 측정하는 지표입니다.

4. 왜 이 방법이 특별한가요?

  • 학습 불필요 (Training-Free): 별도의 탐지기를 훈련시킬 필요가 없습니다. AI 가 이미 가진 '에너지' 값을 읽기만 하면 됩니다.
  • 범용성: 수학 문제, 일반 상식, 추론 등 어떤 주제든, 어떤 AI 모델 (LLaMA, Mistral, Gemma 등) 이든 잘 작동합니다.
  • 정확도: 기존에 쓰던 방법들 (단순 확률이나 다른 탐지 모델) 보다 거짓말을 찾아내는 정확도가 훨씬 높습니다. 특히 AI 가 헷갈려서 엉뚱한 숫자를 계산할 때나, 사실을 왜곡할 때 이 '누수' 신호가 매우 뚜렷하게 나타납니다.

5. 실제 예시

논문의 그림 1 을 보면 다음과 같은 차이가 있습니다.

  • 질문: "이탈리아의 수도는 어디인가요?"
    • 정답 (로마): 에너지 누수 신호가 작음 (✅).
    • 오답 (시드니): 에너지 누수 신호가 큼 (❌).
  • 질문: "12 마리의 닭이 하루에 2 개씩 알을 낳으면 5 일 동안 몇 개일까요?"
    • 정답 (120 개): 에너지가 안정적.
    • 오답 (470 개): 계산이 틀려서 에너지 균형이 깨짐 (누수 발생).

6. 결론: AI 의 '양심'을 읽는 새로운 방법

이 연구는 AI 가 거짓말을 할 때 내부적으로 발생하는 **수학적 불일치 (에너지 누수)**를 포착하여, 별도의 훈련 없이도 그 오류를 찾아낼 수 있음을 증명했습니다.

마치 전선에서 전기가 새는지 확인하는 것처럼, AI 가 생성하는 텍스트의 흐름을 지켜보다가 '에너지가 새는 지점'을 발견하면, 그곳이 바로 AI 가 헷갈리거나 거짓말을 하는 순간임을 알 수 있습니다. 이는 더 신뢰할 수 있는 AI 를 만들기 위한 강력한 도구입니다.