Neuro-Symbolic Learning for Predictive Process Monitoring via Two-Stage Logic Tensor Networks with Rule Pruning

Each language version is independently generated for its own context, not a direct translation.

🏥 배경: 왜 새로운 방법이 필요할까요?

지금까지 병원이나 은행 같은 곳에서 업무를 예측할 때 AI 는 주로 **과거의 기록 (데이터)**만 보고 학습했습니다. 마치 "지난 10 년간 환자들이 어떻게 치료받았는지"만 보고 미래를 예측하는 거죠.

하지만 여기서 큰 문제가 생깁니다.

데이터의 함정: 과거 데이터에는 "실수"나 "예외 상황"이 섞여 있을 수 있습니다.
규칙의 중요성: 하지만 현실 세계에는 반드시 지켜야 할 절대적인 규칙이 있습니다.
- 예시: "수술을 받기 전에 반드시 7 일 이상 입원해야 한다"거나, "환자 신원 확인이 끝나기 전에 돈을 이체하면 안 된다"는 식이죠.

기존 AI 는 과거 데이터에서 "수술 전 입원이 짧았던 경우"를 많이 봤다면, "아, 입원이 짧아도 수술 가능한구나"라고 잘못 학습할 수 있습니다. 하지만 실제로는 그건 위반 행위일 뿐이죠.

💡 해결책: "수석 의사 (AI)"에게 "규칙책 (논리)"을 입히다

이 논문은 **뉴로-심볼릭 (Neuro-Symbolic)**이라는 방법을 제안합니다. 쉽게 말해, **데이터를 배우는 AI(신경망)**와 **규칙을 지키는 논리 (상징적 AI)**를 한 몸으로 합친 것입니다.

이를 위해 **LTN(Logic Tensor Networks)**이라는 도구를 사용하는데, 마치 AI 가 규칙책을 읽으면서 학습하게 만드는 거예요.

🛠️ 핵심 기술: "두 단계 학습 전략" (The Two-Stage Strategy)

여기서 가장 중요한 부분이 나옵니다. 단순히 규칙책을 AI 에게 주면, AI 가 규칙만 맹목적으로 따르다가 실제 예측 능력을 잃어버리는 실수를 저지를 수 있습니다. (예: "수술 전 입원 7 일"이라는 규칙만 지키려고, 모든 환자를 7 일 입원시킨다고 예측하는 식이죠. 이건 예측이 아니라 규칙 반복입니다.)

저자들은 이 문제를 해결하기 위해 두 단계로 나누어 학습시키는 clever 한 방법을 고안했습니다.

1 단계: "데이터 먼저, 규칙은 보조" (가중치 학습)

상황: AI 가 처음 공부를 시작할 때입니다.
방법: AI 에게 "일단 과거 데이터 (환자 기록) 를 잘 분석해"라고 먼저 시킵니다. 규칙책은 참고만 하도록 합니다.
비유: 의대생이 먼저 임상 경험을 쌓고, 그다음에 교과서 (규칙) 를 보며 교정하는 과정입니다. 이렇게 하면 AI 가 데이터의 흐름을 먼저 잡습니다.

2 단계: "쓸모없는 규칙은 버려라" (규칙 다듬기/Rule Pruning)

상황: AI 가 어느 정도 데이터를 이해했으니, 이제 규칙책을 정리할 때입니다.
문제: 규칙책에는 쓸모없는 것, 혹은 데이터와 충돌하는 엉뚱한 규칙들이 섞여 있을 수 있습니다.
방법: AI 가 학습하면서 "이 규칙은 실제로 도움이 되는가?"를 체크합니다.
- 도움이 되는 규칙: 유지 (예: "수술 후 2 시간 이내 항생제 투여는 필수")
- 방해가 되는 규칙: 삭제 (예: "데이터와 맞지 않는 엉뚱한 조건")
결과: AI 는 이제 데이터도 잘 알고, 중요한 규칙만 정확히 지키는 똑똑한 전문가가 됩니다.

📊 실험 결과: 왜 이 방법이 좋은가요?

저자들은 실제 병원 데이터 (Sepsis, BPIC 등) 로 실험을 해보았습니다.

데이터가 부족할 때: 과거 기록이 적은 경우, 기존 AI 는 엉뚱한 예측을 했지만, 이 방법은 규칙을 통해 정확한 예측을 했습니다. (규칙이 데이터의 빈 공간을 채워줍니다.)
규칙 위반이 중요한 경우: "반드시 지켜야 할 법규"가 있는 상황에서는 기존 AI 는 규칙을 무시하고 예측했지만, 이 방법은 규칙을 지키면서도 높은 정확도를 냈습니다.
가장 중요한 발견: 규칙을 그냥 무작정 넣으면 (2 단계 없이) 오히려 AI 성능이 폭망했습니다. 하지만 두 단계 전략을 쓰면 성능이 비약적으로 향상되었습니다.

🎁 한 줄 요약

"과거의 데이터 (경험) 와 미래의 규칙 (법칙) 을 모두 잘 활용하게 하려면, AI 가 먼저 경험을 쌓게 한 뒤, 쓸모있는 규칙만 골라내어 가르쳐야 합니다."

이 논문은 인공지능이 단순히 "데이터만 보고 추측"하는 수준을 넘어, 현실 세계의 법칙과 윤리를 준수하면서도 정확한 예측을 할 수 있게 해주는 중요한 발걸음입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

예측 프로세스 모니터링 (Predictive Process Monitoring, PPM) 은 금융, 의료, 제조 등 다양한 분야에서 이벤트 로그를 분석하여 프로세스 결과를 예측하고 이상을 탐지하는 핵심 기술입니다. 최근 LSTM, Transformer 와 같은 딥러닝 기반 접근법이 복잡한 시퀀스 패턴을 포착하는 데 탁월한 성능을 보였으나, 다음과 같은 근본적인 한계가 존재합니다.

도메인 제약 조건의 부재: 순수 데이터 기반 모델은 역사적 데이터의 상관관계만 학습할 뿐, 의료 절차의 순서나 금융 거래의 규정 준수 (Compliance) 와 같은 명시적인 도메인 규칙과 논리적 제약을 반영하지 못합니다.
규정 준수와 안전성 문제: 실제 운영 환경에서는 데이터가 위반하는 경우라도 "수술 전 7 일 이상 퇴원해야 한다"거나 "신원 확인 전 이체 불가"와 같은 규칙이 절대적으로 지켜져야 합니다. 기존 모델은 이러한 규칙을 위반하는 예측을 할 수 있어 신뢰성과 규제 준수가 어렵습니다.
LTN 의 한계: 논리 텐서 네트워크 (Logic Tensor Networks, LTN) 와 같은 신경 - 심볼릭 (Neuro-Symbolic) 접근법이 존재하지만, LTN 은 종종 예측 정확도를 희생하면서 논리식 만족도를 높이는 경향이 있어, 오히려 모델 성능을 저하시킬 수 있습니다.

2. 방법론 (Methodology)

저자들은 도메인 지식을 신경망에 통합하면서도 예측 정확도를 유지하기 위해 **2 단계 최적화 전략 (Two-Stage Optimization Strategy)**을 갖춘 신경 - 심볼릭 프레임워크를 제안합니다.

A. 지식 형식화 (Knowledge Formalization)

프로세스 지식을 논리식으로 체계적으로 변환합니다.

특징 추출: 제어 흐름 (Control-flow), 시간적 (Temporal), 페이로드 (Payload) 특징을 추출합니다.
논리 표현:
- 제어 흐름: 선형 시간 논리 (LTL) 를 사용하여 순차적 제약 (예: "A 후 반드시 B 발생") 을 표현.
- 시간 및 페이로드: 1 차 논리 (FOL) 를 사용하여 시간 제한이나 속성 기반 규칙 (예: "수술 후 2 시간 내 항생제 투여 시 합병증 감소") 을 표현.
LTN 매핑: 추출된 규칙을 LTN 의 가중치 텐서로 변환하여 미분 가능한 논리 제약으로 만듭니다.

B. 2 단계 최적화 전략 (Two-Stage Optimization)

LTN 의 단점 (논리식 만족을 위한 예측 능력 저하) 을 해결하기 위해 두 단계로 나뉘는 학습 과정을 도입합니다.

1 단계: 가중치 공리 손실 (Weighted Axiom Loss) 및 사전 학습
- 데이터 공리 ( $K_D$ ) 와 지식 공리 ( $K_P$ ) 에 서로 다른 가중치 ( $\alpha, \beta$ ) 를 부여합니다.
- 전략: $\alpha > \beta$ (예: 0.8 vs 0.2) 로 설정하여, 초기 학습 단계에서는 데이터 학습을 우선시합니다. 이는 모델이 논리식을 단순히 만족시키기 위해 (Vacuous Satisfaction) 예측 능력을 포기하는 것을 방지합니다.
2 단계: 규칙 가지치기 (Rule Pruning) 및 미세 조정
- 검증 세트를 기반으로 각 규칙의 만족도 동역학 (Satisfaction Dynamics) 을 분석합니다.
- 게이팅 점수 (Gating Score): $g_i = \bar{s}_i \cdot e^{-\lambda \cdot Var(s_i)}$ 공식을 사용하여 규칙의 일관성 ( $\bar{s}_i$ ) 과 분산 ( $Var(s_i)$ ) 을 평가합니다.
- 선택: 점수가 임계값 ( $\tau$ ) 이상인 일관되고 기여도가 높은 규칙만 선별하여 정제된 지식 베이스 ( $K'_P$ ) 를 생성합니다.
- 미세 조정: 정제된 지식 베이스를 사용하여 모델을 최종적으로 미세 조정합니다.

3. 주요 기여 (Key Contributions)

체계적인 지식 통합: 제어 흐름, 시간, 페이로드 정보를 LTL 과 FOL 로 형식화하여 신경 예측 모델에 통합하는 원칙적인 접근법을 제시했습니다.
2 단계 최적화 전략: LTN 의 근본적인 한계 (논리식 우선으로 인한 예측 정확도 저하) 를 해결하기 위해, 가중치 손실과 규칙 가지치기를 결합한 새로운 학습 전략을 제안했습니다. 이를 통해 데이터가 부족한 상황에서도 안정적인 학습과 우수한 성능을 달성했습니다.
규제 준수 시나리오에서의 검증: 제한된 규정 준수 예시 (Compliant examples) 가 있는 상황에서도 데이터 기반 모델보다 뛰어난 일반화 능력을 입증했습니다.

4. 실험 결과 (Results)

4 개의 실제 이벤트 로그 (Sepsis, BPIC2012, BPIC2017, Traffic fines) 를 사용하여 평가했습니다.

RQ1 (도메인 지식의 영향): 제안한 2 단계 방법론 (Two-Stage-L/T) 은 순수 데이터 기반 모델 (LSTM, Transformer) 보다 모든 데이터셋에서 정확도와 F1 점수가 향상되었습니다. 특히 데이터가 적은 Sepsis 및 BPIC2012 에서 개선 폭이 컸습니다.
RQ2 (2 단계 최적화의 중요성):
- LTN-NoP (가지치기 없는 LTN): 지식 공리를 추가하되 가지치기를 하지 않으면, 성능이 극적으로 저하되었습니다 (예: Sepsis 데이터에서 F1 점수가 70% 대에서 18% 대로 급감). 이는 모델이 논리식을 쉽게 만족시키기 위해 예측 패턴을 무시했기 때문입니다.
- Two-Stage: 가지치기와 가중치 학습을 적용한 모델은 LTN-NoP 대비 20~50% 이상 성능이 회복되었으며, 순수 데이터 모델보다도 우월한 성능을 보였습니다.
RQ3 (규제 준수 시나리오 일반화): 훈련 데이터 중 규정 준수 예시가 극히 적을 때 (예: Sepsis 의 4%), 제안 방법은 데이터 기반 모델 (LSTM) 대비 F1 점수가 16.7% 이상 향상되었습니다. 이는 논리 규칙이 희귀하지만 중요한 패턴을 학습하는 데 강력한 인덕티브 바이어스 (Inductive Bias) 로 작용함을 의미합니다.

5. 의의 및 결론 (Significance)

이 논문은 예측 프로세스 모니터링 분야에서 신경망의 패턴 인식 능력과 심볼릭 논리의 도메인 지식을 효과적으로 융합하는 새로운 패러다임을 제시합니다.

실용성: 의료, 금융 등 규제와 안전이 중요한 분야에서 데이터의 부족이나 편향으로 인한 오류를 방지하고, 필수적인 비즈니스 규칙을 준수하는 예측을 가능하게 합니다.
기술적 통찰: 단순히 논리식을 추가하는 것만으로는 성능이 떨어질 수 있음을 보여주었으며, **학습 단계별 가중치 조절과 불필요한 규칙 제거 (가지치기)**가 신경 - 심볼릭 모델의 성공적인 적용에 필수적임을 입증했습니다.
미래 방향: 자동화된 규칙 템플릿 생성, 의료 등 구체적인 도메인 사례 연구, 그리고 다음 이벤트 및 시간 예측으로의 확장 가능성을 제시했습니다.

요약하자면, 이 연구는 **"데이터와 논리의 균형"**을 맞추기 위한 정교한 최적화 전략을 통해, 기존 신경 - 심볼릭 접근법의 한계를 극복하고 실제 산업 환경에 적용 가능한 고신뢰성 예측 모델을 개발한 획기적인 작업입니다.