Each language version is independently generated for its own context, not a direct translation.
이 논문은 거대 언어 모델 (LLM, 예: 챗봇) 이 만들어내는 '환각 (Hallucination)' 현상을 단순히 "거짓말"이라고 통칭하는 대신, 세 가지 완전히 다른 종류로 나누어 분석하고 이를 기하학 (도형과 거리) 의 원리로 설명한 흥미로운 연구입니다.
저자 마린 (Marín) 은 이 세 가지 오류가 마치 우주 공간에서 서로 다른 궤적을 그리듯, 수학적으로 구별되는 특징을 가진다고 말합니다.
이 복잡한 내용을 일상적인 비유로 쉽게 풀어보겠습니다.
🌌 핵심 비유: "지식 우주"에서의 여행
생각해 보세요. AI 의 지식은 거대한 우주 (임베딩 공간) 로 이루어져 있습니다.
- 질문 (Query) 은 우리가 출발하는 행성입니다.
- 정답 은 그 행성에서 가장 가까운 별입니다.
- 문맥 (Context) 은 우리가 여행할 때 들고 가는 지도입니다.
이 논문은 AI 가 이 우주에서 길을 잃었을 때, 어떤 방식으로 길을 잃었는지에 따라 세 가지 유형으로 나눕니다.
1. 유형 I: "무시하는 여행객" (Unfaithfulness)
- 상황: AI 에게 "이 지도 (문서) 를 보고 답해줘"라고 했을 때, AI 는 지도를 무시하고 자기 머릿속 (기억) 에 있는 옛날 이야기를 꺼냅니다.
- 비유: 여행객이 지도를 들고 왔는데, 정작 지도를 보지 않고 "아, 내가 전에 이 근처에 왔었지, 거기엔 이런 게 있었어!"라고 자기 생각대로 말을 합니다.
- 기하학적 특징: 답변이 지도 (문맥) 쪽으로 이동하지 않고, 질문 (출발점) 근처에 그대로 머물러 있습니다.
- 해결책 (SGI): "답변이 지도 쪽으로 갔나요, 아니면 질문 옆에 그대로 있었나요?"를 측정하는 '지침성 지수' 로 이를 잡아냅니다.
2. 유형 II: "상상력 넘치는 거짓말쟁이" (Confabulation)
- 상황: 존재하지 않는 나라, invented(발명된) 기관, 혹은 전혀 없는 과학 원리를 만들어냅니다.
- 비유: 여행객이 "이곳에 있는 유명한 카페 이름이 뭐야?"라고 물었을 때, 실제로 존재하지 않는 '우주 커피 샵'이라는 가상의 가게를 지어내서 알려줍니다.
- 기하학적 특징: 답변이 합리적인 답이 있을 법한 영역 (만다) 에서 벗어나, 전혀 다른 방향으로 날아갑니다. 마치 지도에 없는 섬을 찾아간 것과 같습니다.
- 해결책 (Γ): "답변이 합리적인 영역에서 너무 멀리 날아갔나요?"를 측정하는 '방향성 지수' 로 이를 잡아냅니다. 이 방법은 매우 강력해서, 인간이 만든 거짓말을 95% 이상 찾아냅니다.
3. 유형 III: "틀린 세부사항의 전문가" (Factual Error)
- 상황: 개념은 맞는데, 숫자나 세부 사실만 틀립니다. (예: "에펠탑은 파리에 있다"는 맞는데, "높이가 300m 다"라고 330m 라고 잘못 말함).
- 비유: 여행객이 "파리에 있는 에펠탑"을 설명할 때, 위치와 개념은 정확하지만 높이 숫자만 잘못 말해줍니다.
- 기하학적 특징: 이 경우, 정답과 오답이 우주 공간에서 거의 같은 위치에 있습니다. AI 의 수학 (기하학) 으로 보면 둘은 구별이 안 됩니다.
- 결론: 이것은 기하학으로 잡을 수 없습니다. 왜냐하면 AI 는 '진실'을 계산하는 게 아니라 '빈도수 (함께 나오는 단어)'를 계산하기 때문입니다.
🔍 이 연구가 밝혀낸 놀라운 사실들
거짓말의 종류마다 잡는 방법이 다릅니다.
- 지도를 무시하는 경우 (유형 I) 는 지도와 비교하면 잡힙니다.
- 엉뚱한 것을 만들어내는 경우 (유형 II) 는 방향과 궤적을 보면 잡힙니다.
- 하지만 세부 숫자를 틀리는 경우 (유형 III) 는 수학적 거리로는 구별이 안 됩니다.
왜 "진실한 QA(TruthfulQA)" 데이터는 속임수였을까?
- 기존 연구들에서 AI 가 거짓말을 잘 찾아낸다고 했던 데이터셋을 분석해보니, 사실은 답변의 '스타일' 때문에 걸린 것이었습니다.
- 비유: 진실한 답변은 "아마도 ~일 수도 있습니다"라고 길고 조심스럽게 쓰지만, 거짓 답변은 "그렇습니다!"라고 짧고 단정하게 썼습니다. AI 가 이 문장 길이와 톤을 보고 "아, 이건 거짓이야"라고 추측한 것이지, 사실 여부를 진짜로 파악한 게 아니었습니다.
- 이 연구는 "세부 사실 오류 (유형 III) 는 기하학적으로 보이지 않는다"는 이론적 한계를 증명했습니다.
전문가 영역에서는 더 강력합니다.
- 일반인 데이터에서는 AI 가 헷갈릴 수 있지만, 의학, 법률, 공학 같은 전문가 영역에서는 이 '방향성 지수 (Γ)'가 기존 방법들보다 훨씬 잘 작동했습니다. 전문가들은 엉뚱한 말을 할 때 그 방향이 매우 뚜렷하게 틀리기 때문입니다.
💡 요약: 이 논문이 우리에게 주는 메시지
이 논문은 "AI 가 거짓말을 할 때, 모든 거짓말이 같은 게 아니다"라고 말합니다.
- 지도 무시형은 문맥을 확인하면 잡힙니다.
- 상상력 과잉형은 방향과 궤적을 보면 잡힙니다.
- 하지만 세부 사실 실수형은 수학적으로 구별이 안 됩니다.
우리는 이제 AI 의 오류를 막을 때, "어떤 종류의 오류인가?"를 먼저 파악해야 합니다. 모든 거짓말을 한 가지 방법으로 잡으려 하면 실패할 수 있다는 것을, 기하학 (도형) 이라는 새로운 렌즈를 통해 명확하게 보여주었습니다.
한 줄 결론: "AI 의 거짓말은 종류가 다르고, 그걸 잡는 열쇠도 다릅니다. 하지만 '세부 숫자 실수' 같은 건 수학으로도 잡히지 않으니, 인간이 직접 확인해야 할 영역입니다."