DoFlow: Flow-based Generative Models for Interventional and Counterfactual Forecasting on Time Series

Each language version is independently generated for its own context, not a direct translation.

1. 기존 모델의 한계: "과거의 맛을 그대로 따라 하는 요리사"

기존의 시간 예측 AI 들은 아주 똑똑한 **'레시피 모방 요리사'**와 같습니다.

일상적인 예측: "지난 100 일간 비가 오면 땅이 젖었다. 그래서 내일 비가 오면 땅이 젖을 것이다."라고 예측합니다. 이는 과거의 패턴을 그대로 extrapolation(외삽) 하는 것입니다.
한계점: 하지만 이 요리사는 "만약 내가 소금을 덜 넣으면 맛이 어떻게 변할까?"라는 질문에는 답할 수 없습니다. 왜냐하면 그는 단순히 과거 데이터를 보고 "소금과 맛의 상관관계"만 배웠을 뿐, **원인과 결과 (인과관계)**의 깊은 구조를 이해하지 못하기 때문입니다.

2. DoFlow 의 등장: "만약을 상상하는 마법 요리사"

DoFlow 는 이 문제를 해결하기 위해 등장했습니다. 이 모델은 **인과관계 (Cause and Effect)**를 지도처럼 그려두고, 그 지도를 따라 미래를 시뮬레이션합니다.

핵심 기능 1: 개입 예측 (Interventional Forecasting) - "조작해보기"

상황: 수력 발전소에서 터빈을 제어하는 신호를 바꾸면, 발전기의 출력은 어떻게 변할까요?
DoFlow 의 역할: "터빈 신호를 이렇게 바꾸자 (개입)"라고 가정하면, 그 변화가 시스템 전체에 어떻게 퍼져나갈지 실시간으로 시뮬레이션합니다. 마치 요리사가 "소금을 2 배로 넣으면 어떻게 될까?"라고 상상하며 맛을 예측하는 것과 같습니다.

핵심 기능 2: 반사실 예측 (Counterfactual Forecasting) - "시간 여행을 통한 후회 방지"

상황: 환자가 A 약을 먹고 회복이 더디다면, "만약 B 약을 먹었다면 어땠을까?"라는 질문을 합니다.
DoFlow 의 역할: 이미 일어난 사실 (A 약 복용) 을 바탕으로, **동일한 환자의 몸 상태 (숨겨진 요인)**를 유지한 채, "만약 B 약을 먹었다면"이라는 평행 우주의 결과를 만들어냅니다.
비유: 마치 "내가 어릴 때 그 학교를 다녔다면 지금 내 인생은 어땠을까?"라고 상상할 때, DoFlow 는 당신의 과거 기억 (데이터) 을 그대로 유지한 채, 다른 선택지 (약물 변경) 를 적용해 새로운 미래를 보여줍니다.

3. 어떻게 작동할까? (기술적 원리의 쉬운 비유)

DoFlow 는 **연속 정규화 흐름 (Continuous Normalizing Flow, CNF)**이라는 기술을 사용합니다. 이를 **'유체 (물) 의 흐름'**으로 생각하면 쉽습니다.

인코딩 (흐름을 거꾸로 돌리기):
- 현재 관찰된 복잡한 데이터 (예: 환자의 혈압, 심박수) 를 '물'이라고 칩시다.
- DoFlow 는 이 복잡한 물의 흐름을 거꾸로 추적해서, 아주 단순하고 깔끔한 '순수한 물 (노이즈)' 상태로 되돌립니다. 이 과정에서 데이터 속에 숨겨진 **원인 (노이즈)**을 찾아냅니다.
인과 지도 (DAG):
- DoFlow 는 시스템의 구조를 **나무 (DAG)**처럼 그립니다. "A 가 B 를 만들고, B 가 C 를 만든다"는 연결 고리가 명확합니다.
- 이 지도 덕분에, A 를 바꾸면 B 와 C 가 어떻게 변할지 논리적으로 계산할 수 있습니다.
디코딩 (새로운 미래를 만들어내기):
- 이제 우리가 원하는 상황 (예: "약물을 바꾸자") 을 적용합니다.
- 찾아낸 '순수한 물 (원인)'을 가지고, 우리가 원하는 새로운 조건 (약물 변경) 을 적용하여 다시 복잡한 미래 데이터 (새로운 혈압 곡선) 로 만들어냅니다.

4. 실제 적용 사례: "예측을 넘어 안전을 지키다"

이 모델은 단순히 숫자를 맞추는 것을 넘어, 위험을 미리 감지하는 데도 쓰입니다.

수력 발전소: 터빈이 고장 나기 직전, 미세한 진동 패턴이 평소와 달라집니다. DoFlow 는 "이 패턴은 정상적인 흐름에서 벗어난 것"이라고 판단하여, 고장 (Anomaly) 이 발생하기 전에 경보를 울립니다. 마치 "물이 갑자기 거품이 일고 색깔이 변하면, 곧 배가 침몰할 것"이라고 미리 알려주는 것과 같습니다.
암 치료: 환자의 과거 데이터를 바탕으로, "어떤 치료법을 선택하면 가장 좋은 결과가 나올까?"를 시뮬레이션하여 의사가 최적의 치료 계획을 세우도록 돕습니다.

5. 요약: 왜 이 모델이 중요한가?

기존의 AI 는 **"과거가 반복된다면 미래는 이렇게 될 것이다"**라고 말합니다.
하지만 DoFlow 는 **"우리가 미래를 바꿀 수 있다면, 어떻게 변할까?"**라고 답해줍니다.

이것은 단순한 예측을 넘어, **의사결정 (Decision Making)**을 위한 강력한 도구가 됩니다.

"이 정책을 시행하면 경제가 어떻게 될까?"
"이 약을 줄이면 환자의 생존율은 어떻게 변할까?"
"이 기계를 멈추면 전체 공장에 어떤 영향이 미칠까?"

DoFlow 는 이러한 '만약 (What-if)' 질문에 대해, 단순한 추측이 아닌 과학적이고 논리적인 시뮬레이션으로 답을 제시하는, 시간과 인과를 다루는 새로운 시대의 지도자입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

기존의 시계열 예측 모델은 주로 과거 데이터의 상관관계를 학습하여 미래 값을 예측하는 관측적 (Observational) 접근법에 집중합니다. 그러나 실제 응용 분야 (에너지, 의료 등) 에서는 다음과 같은 인과적 (Causal) 질문을 해결해야 하는 경우가 많습니다.

개입적 예측 (Interventional Forecasting): "어떤 변수를 강제로 특정 값으로 변경했을 때, 시스템의 미래 궤적은 어떻게 변할까?" (예: 터빈 제어 신호 변경 시 발전량 예측)
반사실적 예측 (Counterfactual Forecasting): "우리가 실제로 취한 조치 대신 다른 조치를 취했다면, 동일한 환자의 치료 결과는 어땠을까?" (예: 다른 약물 투여 계획 하에서의 환자 상태 변화)

현재 대부분의 최신 예측 모델은 인과 구조를 고려하지 않아 개입이나 반사실적 시나리오를 시뮬레이션할 수 없으며, 반사실적 시계열 예측을 위한 일반적인 프레임워크는 부재한 상태입니다.

2. 방법론 (Methodology: DoFlow)

DoFlow는 **연속 정규화 흐름 (Continuous Normalizing Flows, CNF)**과 **신경 ODE (Neural ODE)**를 기반으로 하며, 명시적으로 인과 방향 비순환 그래프 (Causal DAG) 구조를 모델에 내장합니다.

핵심 구성 요소

인과 DAG 기반 구조:
- $K$ 차원 다변량 시계열을 노드로 가지며, 각 노드 $i$ 는 부모 노드 $pa(i)$의 과거 값과 자신의 과거 값에 의존합니다.
- 구조적 인과 모델 (SCM) 을 따릅니다: $X_{i,t} = f_i(X_{i,t-}, X_{pa(i),t-}, U_{i,t})$ . 여기서 $U_{i,t}$ 는 외생 잡음입니다.
시간 조건부 CNF (Time-Conditioned CNF):
- 각 노드 $i$ 에 대해 별도의 CNF 를 학습합니다.
- RNN (LSTM/GRU) 인코더: 각 노드와 그 부모 노드의 과거 히스토리 ( $X_{i,t-}, X_{pa(i),t-}$ ) 를 요약하여 은닉 상태 $H_{i,t-1}$ 을 생성합니다.
- Neural ODE: 은닉 상태 $H_{i,t-1}$ 을 조건으로 하여, 표준 정규 분포 $N(0, 1)$ 에서 데이터 분포로 매핑하는 연속적인 변환을 학습합니다.
- 학습: 조건부 흐름 매칭 (Conditional Flow Matching, CFM) 손실 함수를 사용하여 효율적으로 훈련합니다.
예측 프로세스:
- 관측/개입 예측:
  - 개입이 없는 노드는 학습된 역과정 (Reverse Process) 을 통해 잠재 변수 $z \sim N(0, 1)$ 에서 샘플링하여 예측합니다.
  - 개입이 있는 노드는 $do(X_{i,t} = \gamma)$ 에 따라 값을 고정하고, 이를 하위 노드들의 예측에 반영합니다 (위상 정렬 순서로 진행).
- 반사실적 예측 (Abduction-Action-Prediction):
  1. 추론 (Abduction): 관측된 사실적 궤적 ( $x^F$ ) 을 인코더를 통해 잠재 변수 $z^F$ 로 변환합니다. 이때 외생 잡음 $U$ 의 정보를 잠재 공간에 인코딩합니다.
  2. 행동 (Action): 개입 계획 ( $I$ ) 을 적용합니다.
  3. 예측 (Prediction): 인코딩된 잠재 변수 $z^F$ 를 사용하여, 개입된 조건 하에서 역과정을 통해 반사실적 궤적 ( $\hat{x}^{CF}$ ) 을 생성합니다. 이 과정은 동일한 외생 잡음 (개체별 특성) 을 유지하면서 다른 개입 하에서의 결과를 시뮬레이션합니다.
이상 탐지 (Anomaly Detection):
- CNF 의 특성상 생성된 궤적에 대한 명시적인 로그 밀도 (Log-likelihood) 를 계산할 수 있습니다.
- 정상 패턴과 크게 다른 이상 징후가 발생하면 모델이 할당하는 확률 밀도가 급격히 낮아지므로, 이를 기반으로 이상을 탐지합니다.

3. 주요 기여 (Key Contributions)

통합 프레임워크: 관측적, 개입적, 반사실적 예측을 하나의 생성 모델 (DoFlow) 로 통합하여, DAG 구조 하에서 일관된 시계열 예측을 가능하게 했습니다.
반사실적 회복 이론 (Counterfactual Recovery Theory): 특정 가정 (외생 잡음의 독립성, 구조적 방정식의 단조성 등) 하에서 DoFlow 가 실제 반사실적 궤적을 거의 확실하게 (almost surely) 복원할 수 있음을 이론적으로 증명했습니다 (Corollary 4.5).
명시적 확률 밀도: 생성 모델의 이점을 활용하여 미래 궤적에 대한 명시적인 확률 밀도를 제공함으로써, 원칙적인 이상 탐지 (Anomaly Detection) 를 가능하게 했습니다.
실제 데이터 검증: 합성 데이터뿐만 아니라 실제 수력 발전 시스템 (고장 시나리오) 과 암 치료 데이터 (치료 효과 추정) 에 적용하여 모델의 유효성을 입증했습니다.

4. 실험 결과 (Results)

합성 데이터 (Synthetic Data): Tree, Diamond, FC-Layer, Chain 등 다양한 DAG 구조와 선형/비선형 (Additive/NLNA) 시나리오에서 평가되었습니다.
- 성능: DoFlow 는 기존 RNN, Transformer (TFT, TiDE), 확률적 모델 (DeepVAR, MQF2) 보다 관측적 및 개입적 예측에서 더 낮은 RMSE 를 기록했습니다.
- 반사실적 예측: 기존 베이스라인들은 반사실적 예측을 수행할 수 없었으나 (NA), DoFlow 는 반사실적 궤적을 정확하게 생성했습니다.
실제 데이터 (Real-world Applications):
- 수력 발전 시스템: 터빈 고장으로 인한 전력 중단 시나리오에서, DoFlow 는 고장 발생 전 발전기 신호의 급격한 변화를 정확하게 예측했으며, 로그 밀도 기반 이상 탐지를 통해 고장 발생 20 분 전에도 이상을 감지했습니다.
- 암 치료 효과: 다양한 치료 계획 하에서 종양 크기 변화를 예측하는 과제에서, 기존 치료 효과 추정 모델 (CRN, RMSN, MSM) 보다 낮은 정규화 RMSE 를 달성하여 치료 효과 추정의 정확도를 크게 향상시켰습니다.

5. 의의 및 결론 (Significance)

DoFlow 는 시계열 분석 분야에서 **인과 추론 (Causal Reasoning)**과 **생성 모델링 (Generative Modeling)**을 성공적으로 융합한 선구적인 작업입니다.

의사결정 지원: "What-if" 시나리오를 정량적으로 평가할 수 있어, 에너지 관리, 의료 치료 계획 수립 등 고위험 의사결정 분야에서 신뢰할 수 있는 도구로 활용 가능합니다.
이론적 기반: 반사실적 예측에 대한 이론적 회복 보장을 제공하여, 블랙박스 모델의 한계를 넘어 해석 가능한 인과적 추론을 가능하게 합니다.
확장성: 알려진 인과 DAG 구조를 기반으로 하므로, 물리 법칙이나 도메인 지식을 모델에 쉽게 통합할 수 있으며, 향후 인과 발견 (Causal Discovery) 기술과 결합하여 더 넓은 적용이 기대됩니다.

결론적으로, DoFlow 는 복잡한 동적 시스템에서 단순한 예측을 넘어, 개입과 반사실적 시나리오를 고려한 신뢰할 수 있는 미래 예측 및 의사결정 지원을 위한 새로운 패러다임을 제시합니다.