Toward Epistemic Stability: Engineering Consistent Procedures for Industrial LLM Hallucination Reduction

이 논문은 모델 가중치 수정 없이 산업용 LLM 의 환각을 줄이고 일관된 결과를 도출하기 위해 제안된 5 가지 프롬프트 엔지니어링 전략을 비교 평가하고, 그 중 데이터 레지스트리 강화 (M4) 가 가장 우수한 성능을 보였으며, 개선된 M2 전략이 가장 큰 향상을 기록했다는 사실을 입증합니다.

Brian Freeman, Adam Kicklighter, Matt Erdman, Zach Gordon

게시일 Thu, 12 Ma
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"거대 인공지능 (LLM) 이 공장에서 일할 때, 엉뚱한 소리를 지어내는 '환각 (Hallucination)' 현상을 어떻게 막을 것인가?"**에 대한 연구입니다.

공학적 용어와 복잡한 수식을 모두 빼고, 한 마디로 비유하자면 다음과 같습니다.

**"똑똑하지만 때로는 망상가인 AI 비서에게, 정확한 일을 시키기 위해 우리가 어떤 '지시법'을 개발했는지"**에 대한 보고서입니다.


🏭 배경: 왜 이 연구가 필요한가요?

공장이나 빌딩 관리 시스템에서는 AI 가 "에어컨 고장 원인"이나 "시스템 장애 해결책"을 알려줄 때, 100% 정확한 사실을 말해야 합니다. 하지만 현재 AI 는 문장은 잘 만들어내지만, 사실은 엉뚱한 것을 지어내는 경우가 많습니다.

  • 비유: 마치 유능하지만 가끔은 망상가인 신입 사원이 있다고 상상해 보세요. 그는 보고서를 아주 깔끔하게 작성하지만, "냉각수 펌프가 고장 났다"고 쓸 때, 실제로는 "냉각수 펌프가 고장 난 게 아니라 배관이 막혔다"는 사실을 모르고 엉뚱한 결론을 내릴 수 있습니다. 이걸 그대로 믿고 고치면 큰 사고가 납니다.

이 논문은 AI 의 뇌를 수술하거나 (모델 재학습) 새로운 장비를 추가하지 않고, 단순히 "지시하는 방법 (프롬프트 엔지니어링)"을 바꾸는 것만으로도 이 문제를 얼마나 해결할 수 있는지 실험했습니다.


🛠️ 실험: 5 가지 '지시법' 전략

연구팀은 AI 에게 같은 일을 시키되, 5 가지 다른 방식으로 지시를 내리는 실험을 100 번씩 반복했습니다. 결과는 다음과 같습니다.

1. M1: "한 번만 해봐, 안 맞으면 다시 해" (반복적 유사도 수렴)

  • 방법: AI 에게 같은 일을 5 번 시켜서, 5 번 중 가장 비슷한 답이 나올 때까지 기다리는 방식입니다.
  • 비유: "이 문제를 5 번 풀어봐. 네가 5 번 다 같은 답을 내면, 그게 정답일 확률이 높겠지?"라고 하는 거죠.
  • 결과: 75% 성공. 하지만 가끔은 "다 같은 엉뚱한 답"을 내기도 해서 완벽하지는 않았습니다.

2. M2: "조각조각 잘게 나누어" (분해형 프롬프팅)

  • 방법: 복잡한 일을 한 번에 시키지 않고, "먼저 사실만 뽑아내고, 그다음에 글을 써"라고 두 단계로 나눕니다.
  • 비유: 요리사에게 "오늘 저녁 메뉴 만들어줘"라고 하면 실패할 수 있지만, "먼저 냉장고에 있는 재료만 나열해. 그다음에 그 재료로 요리 레시피를 짜줘"라고 하면 훨씬 정확해집니다.
  • 결과 (1 차): 실패! (34% 성공) AI 가 "재료만 뽑아내라"는 지시 때문에, 원래 요구했던 '맛있는 요리'라는 전체적인 맥락을 잊어버렸습니다.
  • 결과 (2 차 수정): "재료도 뽑고, 원래 지시사항도 다시 확인해"라고 수정하자 80% 로 급상승했습니다.

3. M3: "전문가 팀을 꾸려라" (단일 작업 에이전트 전문화)

  • 방법: 한 명의 AI 가 모든 일을 하게 하지 않고, '원인 분석가', '심각도 판정관', '해결책 제안자', '보고서 작성자'로 역할을 나누어 팀을 구성했습니다.
  • 비유: 한 명의 의사에게 수술, 진단, 약 처방, 병상 관리까지 다 시키면 실수가 날 수 있지만, 각자 전문 분야가 있는 팀을 꾸리면 실수가 줄어듭니다.
  • 결과: 80% 성공. 특히 팀장 역할의 '조정자 (Reconciler)'가 팀원들의 주장을 모순되지 않게 맞춰주니 100% 성공으로 개선되었습니다.

4. M4: "수첩에 적힌 사실만 보고 답해" (강화된 데이터 레지스트리) [가장 성공적인 방법!]

  • 방법: AI 에게 센서 데이터만 주는 게 아니라, "이 숫자는 무엇을 의미하는지", "어떤 부품인지"에 대한 해설이 달린 상세 설명서를 함께 주었습니다.
  • 비유: AI 에게 "숫자 100 이 뜨네?"라고만 하면 AI 는 "아마 고장인가?"라고 추측합니다. 하지만 **"100 은 냉각수 밸브가 100% 열린 상태이고, 95% 를 넘으면 고장 신호야"**라는 설명서를 함께 주면, AI 는 추측하지 않고 사실을 바탕으로 답합니다.
  • 결과: 100% 성공! (100 번 중 100 번 '더 좋음' 판정). AI 가 망상가에서 사실주의자로 변했습니다.

5. M5: "전문 용어 사전 먼저 보여줘" (도메인 용어집 주입)

  • 방법: 산업 현장에서 쓰는 어려운 약어 (AHU, VFD 등) 가 AI 에게는 낯설 수 있으므로, 실험 전에 용어 사전을 먼저 보여주고 지시했습니다.
  • 비유: 외국인과 대화할 때, 먼저 "우리 말은 '에어컨'을 '에어컨'이라고 해"라고 알려주면 오해가 줄어듭니다.
  • 결과: 77% 성공. 약어 때문에 생기는 오해를 크게 줄여주었습니다.

💡 핵심 교훈: "Epistemic Stability (지식적 안정성)"이란?

이 논문이 말하려는 가장 중요한 점은 **"AI 가 100% 진리를 알 수는 없지만, 우리가 준 정보 안에서만 논리적으로 일관된 답을 내놓게 만들 수 있다"**는 것입니다.

  • 비유: AI 는 완벽한 천재가 아니라, 주어진 책상 위 자료만 보고 일하는 똑똑한 인턴입니다.
    • 자료 (데이터) 가 부족하면 인턴은 머릿속으로 상상해서 (환각) 답을 냅니다.
    • 하지만 자료를 완벽하게 정리해서 (M4) 주거나, 일하는 방식을 체계화 (M2, M3) 시키면, 인턴은 상상할 필요가 없어지고 정확한 답을 내놓습니다.

📝 결론 및 제안

이 연구는 AI 를 더 똑똑하게 만드는 게 아니라, AI 가 일하는 환경을 정리해주는 것이 얼마나 중요한지 보여줍니다.

  1. 가장 좋은 방법: AI 에게 **정리된 사실 자료 (설명서)**를 함께 주는 것 (M4).
  2. 복잡한 일일 때: 일을 조각조각 나누고, 다시 확인하게 하는 것 (M2).
  3. 중요한 진단일 때: 전문가 팀을 구성해서 서로의 주장을 검증하게 하는 것 (M3).

이 논문은 "AI 가 실수할까 봐 두려워하지 말고, 어떻게 지시하느냐에 따라 AI 는 훌륭한 공장의 파트너가 될 수 있다"는 희망적인 메시지를 전달합니다.