Each language version is independently generated for its own context, not a direct translation.
🧭 핵심 비유: AI 의 '머릿속 지도'
생각해 보세요. AI 는 방대한 양의 책을 읽으며 세상을 배웠습니다. 이때 AI 는 단어들을 지도상의 특정 위치에 배치해 둡니다.
- '사과'와 '배'는 과일 구역에 모여 있고, '자동차'와 '버스'는 교통 구역에 모여 있습니다.
- 이 지도가 잘 정리되어 있으면 AI 는 정확한 답을 내놓습니다.
하지만 AI 가 망가질 때 (할루시네이션이 일어날 때), 이 지도에서 무슨 일이 일어날까요? 저자는 이를 세 가지 유형으로 나누었습니다.
1. 세 가지 종류의 '길 잃음' (할루시네이션 유형)
- 유형 1: 중심에서 떠도는 경우 (Center-drift)
- 상황: 질문이 너무 막연할 때 (예: "그것은...").
- 비유: 나침반이 고장 나서 북극을 가리키지 못하고, 지도의 한가운데 빈 공간을 빙빙 돌며 아무 의미 없는 말을 뱉어내는 상태입니다.
- 유형 2: 잘못된 골짜기로 가는 경우 (Wrong-well)
- 상황: 질문이 애매할 때 (예: "은행에 갔다" -> 돈이 있는 은행인지, 강가 은행인지).
- 비유: 나침반은 잘 작동하지만, 잘못된 골짜기로 확실히 빠져버린 상태입니다. 그 골짜기 안에서는 논리적으로 말이 되지만, 질문의 의도와는 완전히 다른 방향으로 가는 것입니다.
- 유형 3: 지도에 없는 지역 (Coverage gaps)
- 상황: AI 가 전혀 모르는 새로운 개념을 조합할 때 (예: "고대 고래의 초전도 광학").
- 비유: 지도에 아예 존재하지 않는 지역을 가리키려 할 때입니다. AI 는 "여기는 내가 아는 어떤 마을도, 숲도, 강도 없다"는 것을 느끼고, 지도 밖으로 나가버립니다.
🔍 실험: AI 의 뇌를 스캔하다
저자는 이 세 가지 유형이 AI 의 뇌속 (데이터) 에서 실제로 다르게 나타나는지 확인하기 위해 GPT-2라는 모델을 이용해 실험을 했습니다.
실험 방법:
- 세 가지 유형의 질문을 15 개씩 준비했습니다.
- 각 질문으로 20 번씩 다른 결과를 만들어내어 (랜덤성 제거), 결과가 우연인지 진짜인지 확인했습니다.
- AI 가 단어를 고를 때의 두 가지 상태를 측정했습니다.
- 정적인 상태: 단어 자체의 고정된 위치 (사전 속 위치).
- 맥락적 상태: 문맥을 고려한 AI 의 순간적인 생각 (뇌속의 활성화 상태).
📊 놀라운 발견: 지도의 모양이 다릅니다!
실험 결과는 매우 흥미로웠습니다.
1. 유형 3 (지도에 없는 지역) 은 확실히 다릅니다!
- 비유: AI 가 모르는 말을 할 때, 그 '의지력 (데이터의 크기)'이 확실히 줄어듭니다. 마치 "이건 내가 잘 모르는 일이야"라고 몸을 웅크리는 것처럼, AI 의 내부 신호가 작아집니다.
- 결과: 이 현상은 20 번의 실험 중 19 번이나 똑같이 나타났습니다. 즉, AI 가 완전히 새로운 것을 만들어낼 때는 뇌속 신호가 확실히 작아진다는 게 증명되었습니다.
2. 유형 1 과 2 는 구별이 안 됩니다.
- 비유: "중심에서 떠도는 것"과 "잘못된 골짜기로 가는 것"은 AI 의 뇌속에서 똑같이 보입니다. 마치 나침반이 고장 난 것과 잘못된 골짜기에 빠진 것이 AI 에겐 똑같은 '혼란'으로만 느껴지는 것입니다.
- 결과: 20 번의 실험 중 거의 모든 경우에 두 유형을 구별하지 못했습니다.
3. 함정: 숫자의 착시 (Pseudoreplication)
- 비유: AI 가 한 문장을 만들 때 수백 개의 단어를 나열합니다. 연구자들은 처음에 "단어 하나하나를 보면 차이가 있네!"라고 생각했지만, 알고 보니 그건 동일한 문장 안에서 반복된 신호를 세 번, 네 번 세서 착각한 것이었습니다.
- 결과: 단어 단위로 분석하면 4~16 배나 더 많은 '의미 있는 차이'가 있는 것처럼 보이지만, 실제로는 문장 전체로 보면 그 차이가 사라집니다. (마치 한 번의 실수를 10 번 반복해서 큰 사건인 것처럼 착각하는 것과 같습니다.)
💡 결론: 무엇을 배울 수 있을까요?
이 연구는 우리에게 두 가지 중요한 교훈을 줍니다.
- AI 가 '모른다'는 것을 아는 법:
AI 가 완전히 새로운 것을 만들어낼 때 (유형 3), 그 내부 신호가 확실히 작아집니다. 우리는 이 '작아진 신호'를 감지하면 "아, 이 AI 는 지금 지어내고 있구나!"라고 알 수 있습니다. - AI 가 '혼란스러워'하는 것과 '잘못된' 것을 구별하기 어렵다:
질문이 애매하거나 맥락이 부족할 때 (유형 1, 2), AI 의 뇌속 신호는 너무 미묘해서 현재 기술로는 구별하기 힘듭니다. 마치 아주 작은 진동과 큰 진동을 구별하는 것이 아니라, 진동이 아예 없는 것과 아주 미세한 진동을 구별하는 것처럼 어렵습니다.
한 줄 요약:
"AI 가 완전히 새로운 거짓말 (지도 밖의 이야기) 을 할 때는 그 '신호'가 확실히 작아져서 잡아낼 수 있지만, 단순히 헷갈려서 잘못된 말을 할 때는 그 신호가 너무 미세해서 현재 기술로는 구별하기 어렵다는 것을 증명했습니다."
이 연구는 AI 의 실수를 단순히 '오류'로 치부하는 것이 아니라, 어떤 종류의 오류인지를 수학적으로 분류하고, 이를 통해 더 안전한 AI 를 만드는 첫걸음을 내디뎠습니다.