From Prerequisites to Predictions: Validating a Geometric Hallucination Taxonomy Through Controlled Induction

이 논문은 GPT-2 에서 통제된 유도를 통해 수행한 실험을 통해, 토큰 수준의 의사반복 (pseudoreplication) 이 통계적 유의성을 과장한다는 사실을 규명하고, 중심 이탈 (Type 1) 과 잘못된 수렴 (Type 2) 은 구분되지 않지만 매개변수 크기보다는 노름 (norm) 의 크기에 의해 특징지어지는 커버리지 갭 (Type 3) 할루시네이션이 가장 기하학적으로 뚜렷한 실패 모드임을 입증했습니다.

Matic Korun

게시일 2026-03-03
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧭 핵심 비유: AI 의 '머릿속 지도'

생각해 보세요. AI 는 방대한 양의 책을 읽으며 세상을 배웠습니다. 이때 AI 는 단어들을 지도상의 특정 위치에 배치해 둡니다.

  • '사과'와 '배'는 과일 구역에 모여 있고, '자동차'와 '버스'는 교통 구역에 모여 있습니다.
  • 이 지도가 잘 정리되어 있으면 AI 는 정확한 답을 내놓습니다.

하지만 AI 가 망가질 때 (할루시네이션이 일어날 때), 이 지도에서 무슨 일이 일어날까요? 저자는 이를 세 가지 유형으로 나누었습니다.

1. 세 가지 종류의 '길 잃음' (할루시네이션 유형)

  1. 유형 1: 중심에서 떠도는 경우 (Center-drift)
    • 상황: 질문이 너무 막연할 때 (예: "그것은...").
    • 비유: 나침반이 고장 나서 북극을 가리키지 못하고, 지도의 한가운데 빈 공간을 빙빙 돌며 아무 의미 없는 말을 뱉어내는 상태입니다.
  2. 유형 2: 잘못된 골짜기로 가는 경우 (Wrong-well)
    • 상황: 질문이 애매할 때 (예: "은행에 갔다" -> 돈이 있는 은행인지, 강가 은행인지).
    • 비유: 나침반은 잘 작동하지만, 잘못된 골짜기로 확실히 빠져버린 상태입니다. 그 골짜기 안에서는 논리적으로 말이 되지만, 질문의 의도와는 완전히 다른 방향으로 가는 것입니다.
  3. 유형 3: 지도에 없는 지역 (Coverage gaps)
    • 상황: AI 가 전혀 모르는 새로운 개념을 조합할 때 (예: "고대 고래의 초전도 광학").
    • 비유: 지도에 아예 존재하지 않는 지역을 가리키려 할 때입니다. AI 는 "여기는 내가 아는 어떤 마을도, 숲도, 강도 없다"는 것을 느끼고, 지도 밖으로 나가버립니다.

🔍 실험: AI 의 뇌를 스캔하다

저자는 이 세 가지 유형이 AI 의 뇌속 (데이터) 에서 실제로 다르게 나타나는지 확인하기 위해 GPT-2라는 모델을 이용해 실험을 했습니다.

실험 방법:

  • 세 가지 유형의 질문을 15 개씩 준비했습니다.
  • 각 질문으로 20 번씩 다른 결과를 만들어내어 (랜덤성 제거), 결과가 우연인지 진짜인지 확인했습니다.
  • AI 가 단어를 고를 때의 두 가지 상태를 측정했습니다.
    1. 정적인 상태: 단어 자체의 고정된 위치 (사전 속 위치).
    2. 맥락적 상태: 문맥을 고려한 AI 의 순간적인 생각 (뇌속의 활성화 상태).

📊 놀라운 발견: 지도의 모양이 다릅니다!

실험 결과는 매우 흥미로웠습니다.

1. 유형 3 (지도에 없는 지역) 은 확실히 다릅니다!

  • 비유: AI 가 모르는 말을 할 때, 그 '의지력 (데이터의 크기)'이 확실히 줄어듭니다. 마치 "이건 내가 잘 모르는 일이야"라고 몸을 웅크리는 것처럼, AI 의 내부 신호가 작아집니다.
  • 결과: 이 현상은 20 번의 실험 중 19 번이나 똑같이 나타났습니다. 즉, AI 가 완전히 새로운 것을 만들어낼 때는 뇌속 신호가 확실히 작아진다는 게 증명되었습니다.

2. 유형 1 과 2 는 구별이 안 됩니다.

  • 비유: "중심에서 떠도는 것"과 "잘못된 골짜기로 가는 것"은 AI 의 뇌속에서 똑같이 보입니다. 마치 나침반이 고장 난 것과 잘못된 골짜기에 빠진 것이 AI 에겐 똑같은 '혼란'으로만 느껴지는 것입니다.
  • 결과: 20 번의 실험 중 거의 모든 경우에 두 유형을 구별하지 못했습니다.

3. 함정: 숫자의 착시 (Pseudoreplication)

  • 비유: AI 가 한 문장을 만들 때 수백 개의 단어를 나열합니다. 연구자들은 처음에 "단어 하나하나를 보면 차이가 있네!"라고 생각했지만, 알고 보니 그건 동일한 문장 안에서 반복된 신호를 세 번, 네 번 세서 착각한 것이었습니다.
  • 결과: 단어 단위로 분석하면 4~16 배나 더 많은 '의미 있는 차이'가 있는 것처럼 보이지만, 실제로는 문장 전체로 보면 그 차이가 사라집니다. (마치 한 번의 실수를 10 번 반복해서 큰 사건인 것처럼 착각하는 것과 같습니다.)

💡 결론: 무엇을 배울 수 있을까요?

이 연구는 우리에게 두 가지 중요한 교훈을 줍니다.

  1. AI 가 '모른다'는 것을 아는 법:
    AI 가 완전히 새로운 것을 만들어낼 때 (유형 3), 그 내부 신호가 확실히 작아집니다. 우리는 이 '작아진 신호'를 감지하면 "아, 이 AI 는 지금 지어내고 있구나!"라고 알 수 있습니다.
  2. AI 가 '혼란스러워'하는 것과 '잘못된' 것을 구별하기 어렵다:
    질문이 애매하거나 맥락이 부족할 때 (유형 1, 2), AI 의 뇌속 신호는 너무 미묘해서 현재 기술로는 구별하기 힘듭니다. 마치 아주 작은 진동과 큰 진동을 구별하는 것이 아니라, 진동이 아예 없는 것과 아주 미세한 진동을 구별하는 것처럼 어렵습니다.

한 줄 요약:

"AI 가 완전히 새로운 거짓말 (지도 밖의 이야기) 을 할 때는 그 '신호'가 확실히 작아져서 잡아낼 수 있지만, 단순히 헷갈려서 잘못된 말을 할 때는 그 신호가 너무 미세해서 현재 기술로는 구별하기 어렵다는 것을 증명했습니다."

이 연구는 AI 의 실수를 단순히 '오류'로 치부하는 것이 아니라, 어떤 종류의 오류인지를 수학적으로 분류하고, 이를 통해 더 안전한 AI 를 만드는 첫걸음을 내디뎠습니다.