Toward Epistemic Stability: Engineering Consistent Procedures for Industrial LLM Hallucination Reduction

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"거대 인공지능 (LLM) 이 공장에서 일할 때, 엉뚱한 소리를 지어내는 '환각 (Hallucination)' 현상을 어떻게 막을 것인가?"**에 대한 연구입니다.

공학적 용어와 복잡한 수식을 모두 빼고, 한 마디로 비유하자면 다음과 같습니다.

**"똑똑하지만 때로는 망상가인 AI 비서에게, 정확한 일을 시키기 위해 우리가 어떤 '지시법'을 개발했는지"**에 대한 보고서입니다.

🏭 배경: 왜 이 연구가 필요한가요?

공장이나 빌딩 관리 시스템에서는 AI 가 "에어컨 고장 원인"이나 "시스템 장애 해결책"을 알려줄 때, 100% 정확한 사실을 말해야 합니다. 하지만 현재 AI 는 문장은 잘 만들어내지만, 사실은 엉뚱한 것을 지어내는 경우가 많습니다.

비유: 마치 유능하지만 가끔은 망상가인 신입 사원이 있다고 상상해 보세요. 그는 보고서를 아주 깔끔하게 작성하지만, "냉각수 펌프가 고장 났다"고 쓸 때, 실제로는 "냉각수 펌프가 고장 난 게 아니라 배관이 막혔다"는 사실을 모르고 엉뚱한 결론을 내릴 수 있습니다. 이걸 그대로 믿고 고치면 큰 사고가 납니다.

이 논문은 AI 의 뇌를 수술하거나 (모델 재학습) 새로운 장비를 추가하지 않고, 단순히 "지시하는 방법 (프롬프트 엔지니어링)"을 바꾸는 것만으로도 이 문제를 얼마나 해결할 수 있는지 실험했습니다.

🛠️ 실험: 5 가지 '지시법' 전략

연구팀은 AI 에게 같은 일을 시키되, 5 가지 다른 방식으로 지시를 내리는 실험을 100 번씩 반복했습니다. 결과는 다음과 같습니다.

1. M1: "한 번만 해봐, 안 맞으면 다시 해" (반복적 유사도 수렴)

방법: AI 에게 같은 일을 5 번 시켜서, 5 번 중 가장 비슷한 답이 나올 때까지 기다리는 방식입니다.
비유: "이 문제를 5 번 풀어봐. 네가 5 번 다 같은 답을 내면, 그게 정답일 확률이 높겠지?"라고 하는 거죠.
결과: 75% 성공. 하지만 가끔은 "다 같은 엉뚱한 답"을 내기도 해서 완벽하지는 않았습니다.

2. M2: "조각조각 잘게 나누어" (분해형 프롬프팅)

방법: 복잡한 일을 한 번에 시키지 않고, "먼저 사실만 뽑아내고, 그다음에 글을 써"라고 두 단계로 나눕니다.
비유: 요리사에게 "오늘 저녁 메뉴 만들어줘"라고 하면 실패할 수 있지만, "먼저 냉장고에 있는 재료만 나열해. 그다음에 그 재료로 요리 레시피를 짜줘"라고 하면 훨씬 정확해집니다.
결과 (1 차): 실패! (34% 성공) AI 가 "재료만 뽑아내라"는 지시 때문에, 원래 요구했던 '맛있는 요리'라는 전체적인 맥락을 잊어버렸습니다.
결과 (2 차 수정): "재료도 뽑고, 원래 지시사항도 다시 확인해"라고 수정하자 80% 로 급상승했습니다.

3. M3: "전문가 팀을 꾸려라" (단일 작업 에이전트 전문화)

방법: 한 명의 AI 가 모든 일을 하게 하지 않고, '원인 분석가', '심각도 판정관', '해결책 제안자', '보고서 작성자'로 역할을 나누어 팀을 구성했습니다.
비유: 한 명의 의사에게 수술, 진단, 약 처방, 병상 관리까지 다 시키면 실수가 날 수 있지만, 각자 전문 분야가 있는 팀을 꾸리면 실수가 줄어듭니다.
결과: 80% 성공. 특히 팀장 역할의 '조정자 (Reconciler)'가 팀원들의 주장을 모순되지 않게 맞춰주니 100% 성공으로 개선되었습니다.

4. M4: "수첩에 적힌 사실만 보고 답해" (강화된 데이터 레지스트리) [가장 성공적인 방법!]

방법: AI 에게 센서 데이터만 주는 게 아니라, "이 숫자는 무엇을 의미하는지", "어떤 부품인지"에 대한 해설이 달린 상세 설명서를 함께 주었습니다.
비유: AI 에게 "숫자 100 이 뜨네?"라고만 하면 AI 는 "아마 고장인가?"라고 추측합니다. 하지만 **"100 은 냉각수 밸브가 100% 열린 상태이고, 95% 를 넘으면 고장 신호야"**라는 설명서를 함께 주면, AI 는 추측하지 않고 사실을 바탕으로 답합니다.
결과: 100% 성공! (100 번 중 100 번 '더 좋음' 판정). AI 가 망상가에서 사실주의자로 변했습니다.

5. M5: "전문 용어 사전 먼저 보여줘" (도메인 용어집 주입)

방법: 산업 현장에서 쓰는 어려운 약어 (AHU, VFD 등) 가 AI 에게는 낯설 수 있으므로, 실험 전에 용어 사전을 먼저 보여주고 지시했습니다.
비유: 외국인과 대화할 때, 먼저 "우리 말은 '에어컨'을 '에어컨'이라고 해"라고 알려주면 오해가 줄어듭니다.
결과: 77% 성공. 약어 때문에 생기는 오해를 크게 줄여주었습니다.

💡 핵심 교훈: "Epistemic Stability (지식적 안정성)"이란?

이 논문이 말하려는 가장 중요한 점은 **"AI 가 100% 진리를 알 수는 없지만, 우리가 준 정보 안에서만 논리적으로 일관된 답을 내놓게 만들 수 있다"**는 것입니다.

비유: AI 는 완벽한 천재가 아니라, 주어진 책상 위 자료만 보고 일하는 똑똑한 인턴입니다.
- 자료 (데이터) 가 부족하면 인턴은 머릿속으로 상상해서 (환각) 답을 냅니다.
- 하지만 자료를 완벽하게 정리해서 (M4) 주거나, 일하는 방식을 체계화 (M2, M3) 시키면, 인턴은 상상할 필요가 없어지고 정확한 답을 내놓습니다.

📝 결론 및 제안

이 연구는 AI 를 더 똑똑하게 만드는 게 아니라, AI 가 일하는 환경을 정리해주는 것이 얼마나 중요한지 보여줍니다.

가장 좋은 방법: AI 에게 **정리된 사실 자료 (설명서)**를 함께 주는 것 (M4).
복잡한 일일 때: 일을 조각조각 나누고, 다시 확인하게 하는 것 (M2).
중요한 진단일 때: 전문가 팀을 구성해서 서로의 주장을 검증하게 하는 것 (M3).

이 논문은 "AI 가 실수할까 봐 두려워하지 말고, 어떻게 지시하느냐에 따라 AI 는 훌륭한 공장의 파트너가 될 수 있다"는 희망적인 메시지를 전달합니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

대규모 언어 모델 (LLM) 은 산업 환경 (엔지니어링 설계, ERP, IoT 원격 측정 등) 에서 점차 도입되고 있지만, 할루시네이션 (Hallucination) 이라는 근본적인 장애물에 직면해 있습니다.

할루시네이션의 본질: 문법적으로 일관되고 맥락상 그럴듯하지만 사실적으로 틀리거나 맥락과 일치하지 않는 출력입니다.
산업적 위험: 산업용 작업은 단순히 '평균적으로 그럴듯한' 답변이 아니라, 특정 사례에 대해 정확하고 감사 (Audit) 가 가능한 결과를 요구합니다.
확률적 불확실성: LLM 은 확률적으로 생성되므로, 단일 요소의 정확도가 높더라도 (예: 90%), 다중 요소로 구성된 전체 출력 (n=10) 이 완전히 정확할 확률은 급격히 떨어집니다 ( $P \approx 0.35$ ).
주요 실패 모드:
1. 약어 모호성: AHU, VFD 등 도메인별 약어가 문맥에 따라 다르게 해석됨.
2. 맥락 붕괴 (Context Collapse): 복잡한 다중 제약 조건이 포함된 프롬프트에서 일부 요구사항이 누락됨.
3. 연쇄적 불일치: 초기 단계의 오류가 후속 분석 단계로 전파되어 일관성 있지만 잘못된 결론을 도출함.

2. 방법론 (Methodology)

저자들은 모델 가중치를 변경하거나 복잡한 검증 모델을 구축하지 않고, 프롬프트 엔지니어링을 통해 추론 시간 (Inference-time) 에 모델의 출력을 안정화하고 '인지적 안정성 (Epistemic Stability)'을 달성하는 5 가지 전략을 제안하고 비교했습니다.

핵심 개념: 인지적 안정성 (Epistemic Stability)

철학적 '절대적 확실성'을 목표로 하지 않음.
대신, 입력된 컨텍스트와 데이터가 독립적으로 검증 가능하고 일관된 결과를 여러 번 실행했을 때 재현 가능하게 만드는 공학적 절차를 강조합니다.

5 가지 평가된 전략 (Baseline v1):

M1: 반복적 유사도 수렴 (Iterative Similarity Convergence)
- 동일한 프롬프트로 여러 번 생성한 후, 의미적 유사도 (Semantic Similarity) 가 임계값 (0.85) 이상일 때까지 반복하여 수렴된 답변을 선택합니다.
M2: 분해된 모델-중립적 프롬프팅 (Decomposed Model-Agnostic Prompting)
- 복잡한 프롬프트를 '사실 추출 (Fact Extraction)'과 '텍스트 종합 (Prose Synthesis)' 단계로 분리합니다. 추출된 사실만 종합 단계에 전달합니다.
M3: 단일 작업 에이전트 특화 (Single-Task Agent Specialization)
- 하나의 에이전트가 모든 분석 (원인 분석, 심각도 평가, 조치 계획, 사후 보고서) 을 수행하는 대신, 각 단계를 담당하는 4 개의 전용 에이전트 체인으로 구성합니다.
M4: 향상된 데이터 레지스트리 (Enhanced Data Registry)
- RAG(검색 증강 생성) 와 달리, 검색 색인을 구축하지 않고 요청 시점에 구조화된 메타데이터 (부품 유형, 정상 범위, 고장 임계값, 의존성 등) 를 프롬프트 컨텍스트에 직접 주입합니다.
M5: 도메인 용어사전 주입 (Domain Glossary Injection)
- 도메인별 약어와 용어에 대한 통제된 어휘 목록을 프롬프트 앞에 추가하여 모호성을 해소합니다.

평가 프레임워크:

LLM-as-Judge: 동일한 모델 (GPT-5-chat) 을 사용하여 기준선 (Baseline) 과 개선된 방법의 출력을 비교합니다.
지표: 정확도, 명확성/구조, 직접성을 평가하여 'Better', 'Same', 'Worse'로 판정합니다.
실험: 각 방법당 100 회 반복 실행 (D1) 및 v2 개선안 검증용 10 회 실행 (D2).

3. 주요 기여 (Key Contributions)

체계적 비교: 동일한 내부 기준선과 LLM-as-Judge 프레임워크를 사용하여 5 가지 전략을 100 회 반복 실행으로 정량 비교했습니다.
v2 개선안 및 진단: v1 의 실패 원인을 구체적으로 진단하고 해결책을 제시했습니다.
- M2 실패 원인: 추출 단계에서 프롬프트의 교차 제약 조건 (Cross-cutting constraints) 이 손실됨.
- 해결책: M2 v2 에서 추출된 사실과 원본 프롬프트를 모두 종합 단계에 전달하여 컨텍스트 손실을 방지.
실용적 아티팩트 공개: HVAC/BMS 레지스트리 스키마, 도메인 용어사전, 프롬프트 예시, 의사코드 등을 공개하여 재현 및 독립적 평가를 가능하게 했습니다.
인지적 안정성 프레임워크: 산업용 프로세스에서 절대적 정확성을 보장하지 못하더라도, 검증 가능한 컨텍스트를 통해 출력을 안정화하는 실용적 접근법을 제시했습니다.

4. 결과 (Results)

D1 (100 회 실행, v1 버전) 결과:

M4 (Enhanced Data Registry): 100% 'Better'. 모든 100 회 실행에서 개선된 verdict 를 받았습니다. 구조화된 데이터 주입이 할루시네이션을 가장 효과적으로 줄였습니다.
M3 (Agent Specialization): 80% 'Better'. 에이전트 분리가 연쇄적 오류를 줄이는 데 효과적이었습니다.
M5 (Glossary Injection): 77% 'Better'. 약어 모호성 해소에 효과적이었습니다.
M1 (Iterative Convergence): 75% 'Better'. 유사도 수렴이 일관성을 높였으나, 동일한 오류를 반복할 경우 수렴할 수 있는 한계가 있었습니다.
M2 (Decomposed Prompting): 34% 'Better', 41% 'Worse'. **순간적 효과 (Net Negative)**였습니다. 추출 단계에서 중요한 요구사항이 누락되어 종합된 답변이 불완전해졌습니다.

D2 (10 회 실행, v2 개선 버전) 결과:

M2 v2 (Context-Aware Synthesis): 34% → **80%**로 급격히 개선됨. 원본 프롬프트를 종합 단계에 다시 주입한 것이 핵심 성공 요인이었습니다.
M1 v2 (Self-Critique): 75% → 100% (10 회 중). 유사도 대신 '3 가지 구체적 결함 지적'을 통한 자기 비판 (Self-Critique) 방식이 더 효과적이었습니다.
M3 v2 (Consensus): 80% → 100%. '조정자 (Reconciler)' 에이전트를 추가하여 내부 모순을 해결했습니다.
M4: 100% 유지 (개선 불필요).
M5 v2: 77% → 60% (표본 크기 작음으로 변동성 존재).

5. 의의 및 시사점 (Significance)

실용적 해결책: 모델 재학습이나 복잡한 RAG 인프라 없이, 프롬프트 엔지니어링만으로 산업용 LLM 의 신뢰성을 높일 수 있음을 입증했습니다.
데이터 구조화의 중요성: M4 의 100% 성공률은 산업 분야에서 **정형화된 도메인 데이터 (메타데이터, 물리적 관계 등)**를 모델에 직접 제공하는 것이 가장 강력한 할루시네이션 억제 수단임을 보여줍니다.
분해와 특화의 한계와 해결: 단순한 분해 (M2 v1) 는 컨텍스트 손실을 초래할 수 있으나, '맥락 인식 (Context-Aware)' 방식 (M2 v2) 으로 수정하면 큰 효과를 볼 수 있음을 보였습니다.
인지적 안정성 달성: 절대적 진실 (Ground Truth) 을 보장할 수는 없더라도, 입력된 컨텍스트에 기반하여 검증 가능하고 일관된 진단을 생성하는 공학적 절차를 확립했습니다.

한계점:

동일한 모델이 생성자이자 심사자 (Judge) 역할을 하여 스타일 편향이 있을 수 있음.
실험 범위가 제한적 (특정 모델, 4 가지 시나리오) 이므로 일반화에는 주의가 필요함.
v2 결과는 10 회 실행으로 예비적임.

이 연구는 산업 현장에서의 LLM 도입 시, 모델 자체를 변경하는 대신 입력 컨텍스트의 품질과 프롬프트 구조를 엔지니어링함으로써 할루시네이션을 관리 가능한 수준으로 낮출 수 있음을 보여주는 중요한 사례입니다.