원저자: Dennis Thumm, Ruben Wiedemann, Ying Chen

게시일 2026-05-29

📖 4 분 읽기☕ 가벼운 읽기

원저자: Dennis Thumm, Ruben Wiedemann, Ying Chen

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

상상해 보세요. 인체 내 약물 이동이나 돌풍에 반응하는 풍동과 같이 시간에 따라 변화하는 시스템의 미래를 예측하는 방법을 초지능 AI 에게 가르치고자 한다고 가정해 봅시다.

일반적으로 AI 모델은 시간을 "스냅샷"으로 바라봅니다. 각 페이지가 고정된 순간 (1 초, 2 초, 3 초) 인 플립북처럼 말입니다. 하지만 실제 세계는 시계가 찰칵 소리를 내기를 기다리지 않습니다. 그것은 연속적으로 흐릅니다.

이 논문은 단순한 스냅샷이 아닌 그 흐름을 이해하도록 AI 를 가르치는 것에 관한 것입니다. 간단한 비유를 사용하여 내용을 정리해 보겠습니다.

1. 문제: "정지 - 시작"의 함정

저자들은 흔한 실수를 지적합니다. 흐르는 강과 같은 연속적인 과정을 가르치기 위해 특정 시간에 찍은 스냅샷만 보여준다면, AI 는 강 자체가 아니라 스냅샷의 일정을 학습하게 됩니다.

비유: 자동차 가속 방식을 배우려 한다고 상상해 보세요.
- 나쁜 방법 (이산적/순진한): 깜빡일 때마다 속도계만 봅니다. 깜빡임이 느리면 느린 가속을, 빠르면 빠른 가속을 보게 됩니다. AI 는 엔진이 아니라 "얼마나 빠르게 깜빡이는가"가 속도를 결정한다고 학습합니다.
- 결과: AI 는 혼란에 빠집니다. 깜빡임의 새로운 일정을 보여주면 실패합니다. 자동차의 물리 법칙이 아니라 깜빡임의 패턴을 학습했기 때문입니다.

2. 해결책: "초고속 카메라"

이 논문은 **연속 시간 인과적 기반 모델 (Continuous-Time Causal Foundation Models)**이라는 새로운 훈련 방식을 제안합니다. 간격당 하나의 스냅샷을 찍는 대신, "초고속 카메라" 방식을 사용합니다.

비유: 자동차를 이해하기 위해 엔진이 작동하는 모습을 초당 수천 프레임의 초고속으로 녹화하여 가속의 완벽한 매끄러운 영상을 만듭니다. 그런 다음 AI 에게 이 매끄러운 영상을 보여줍니다.
비법: AI 가 느린 스냅샷 (예: 의사가 하루에 한 번 환자를 검사하는 것) 으로만 테스트되더라도, 이미 초고속 훈련을 통해 매끄러운 연속 물리 법칙을 학습했습니다. AI 는 "스냅샷의 법칙"이 아니라 "강의 법칙"을 알고 있는 것입니다.

3. 세 가지 훈련 수준

저자들은 다양한 모델이 시간을 어떻게 처리하는지 분류하기 위한 "티어 리스트"를 만들었습니다.

티어 1 (플립북): 구식 방식입니다. AI 는 고정된 시간 단계만 알고 있습니다. 타이밍이 바뀌면 실패합니다.
티어 2 (게으른 촬영자): AI 는 연속성을 시도하지만 관측 사이에는 한 장만 찍습니다. 더 나아졌지만, 시간 간격이 바뀌면 여전히 혼란을 겪습니다. 마치 두 장의 흐릿한 사진만으로 자동차 속도를 추측하는 것과 같습니다.
티어 3 (초고속 전문가): 이것이 이 논문이 달성한 바입니다. AI 는 초미세 격자 (수천 개의 작은 단계) 에서 물리 법칙을 시뮬레이션한 후, AI 가 봐야 하는 특정 시간만 보여줍니다.
- 결과: AI 는 시스템의 변하지 않는 진정한 법칙을 학습합니다. 관측이 매초, 매시간, 혹은 무작위 시간에 오든 상관없습니다.

4. 실험: 실제로 작동할까?

팀은 두 가지 유형의 "물리 엔진"으로 이를 테스트했습니다.

선형: 단순한 직선 물리 (예: 스프링).
비선형: 복잡한 비틀림 물리 (예: 혼란스러운 기상 시스템).

그들은 "게으른 촬영자 (티어 2)"와 "초고속 전문가 (티어 3)"를 대결시켰습니다.

발견: 초고속 전문가가 매번 승리했습니다.
놀라운 점: AI 가 초고속 방식으로 훈련되었을 때, 관측 사이의 "얼마나 많은 시간이 지났는지"를 알려줄 필요조차 없었습니다. 그것은 자연스럽게 흐름을 이해했습니다. 하지만 게으른 방식으로 훈련된 AI 는 잘 수행하기 위해 시간 간격을 명시적으로 알려주어야 했습니다.

5. 현실 세계 테스트 ("Zero-Shot" 테스트)

저자들은 이전에 본 적 없는 실제 세계 데이터 (Zero-Shot) 에 그들의 새로운 AI 를 적용해 보았습니다.

약동학: 혈액 내 약물 농도 예측 (테오필린과 와파린). AI 는 합성 데이터로 훈련되었음에도 불구하고 약물의 상승과 하강을 놀라울 정도로 잘 추적했습니다.
물리 시스템: 풍동 실험. AI 는 팬 출력의 갑작스러운 변화에 따라 풍동 속도가 어떻게 반응할지 성공적으로 예측했습니다.

결론

이 논문은 AI 를 위한 더 나은 "시간 기계"를 구축합니다. 데이터 포인트 사이의 간격만 외우는 것이 아니라 (초고속 시뮬레이션을 사용하여) 사물이 어떻게 변하는지에 대한 매끄러운 연속 법칙을 학습하도록 AI 를 강요함으로써, AI 는 데이터가 이상하고 불규칙한 시간에 도착하더라도 미래를 예측하는 데 훨씬 더 똑똑해집니다.

이 논문이 주장하지 않는 것:

이것이 아직 의사나 엔지니어를 대체할 준비가 되었다고 주장하지 않습니다.
모든 유형의 시계열 문제를 해결한다고 주장하지 않습니다.
실제 세계 테스트는 "초기 단계"이며 중대한 상황에서 사용되기 전에 더 많은 작업이 필요하다고 인정합니다.

이는 기초적인 단계입니다. AI 에게 시간을 일련의 발판이 아니라 흐르는 강으로 보게 가르친다면, AI 는 우주의 법칙을 훨씬 더 잘 학습한다는 것을 입증하는 것입니다.

기술적 요약: 연속 시간 인과적 기초 모델 toward

1. 문제 정의

Prior-Data Fitted Networks(PFNs) 는 합성 Structural Causal Models(SCMs) 에 트랜스포머를 사전 훈련시킴으로써 인과 추론을 표형 데이터와 이산 시간 시계열로 성공적으로 확장해 왔습니다. 그러나 기존 시간적 인과적 사전분포는 이산 정수 격자 위에서 작동합니다. 이러한 메커니즘을 확률 미분방정식(SDE) 으로 재작성하고 관측 간격당 한 번씩 적분하여 연속 시간으로 확장하려는 단순한 시도는 진정한 연속성을 달성하지 못합니다.

핵심 문제는 SDE 를 관측 간격에서만 단계화 (naive integration) 할 경우, 궤적의 결합 법칙이 특정 관측 일정에 의존한다는 점입니다. 결과적으로 사전분포는 실질적으로 "SDE 의 옷을 입은" 이산 시간 마르코프 모델로 남게 되어, 데이터 생성 과정이 언제 관측되든 불변이어야 한다는 요구사항을 충족하지 못합니다. 이 한계는 약동학 (임상적으로 선택된 샘플링 시간), 가변 지연 사건을 가진 물리 시스템, 누락 데이터가 있는 전자 건강 기록과 같이 불규칙하고 일정 이질적인 데이터를 가진 도메인에서 결정적입니다.

2. 방법론

2.1. 연속 시간 인과적 사전분포의 정의

이 논문은 연속 시간 인과적 사전분포에 대한 정확한 기준을 제시합니다: 샘플링된 궤적의 결합 법칙은 관측 일정에 불변이어야 합니다. 관측 일정은 순수한 측정으로 간주되며, 근본적인 시간적 SCM(TSCM) 의 일부가 아닙니다.

이 기준에 따라 저자들은 3 단계 분류 체계를 제안합니다:

단계 (A) 이산: 정수 격자 위에서만 정의된 표준 이산 시간 SCM.
단계 (B) 단순 연속: 관측 간격당 한 번씩 적분된 SDE (관측 격자에서의 Euler–Maruyama). 궤적 법칙이 간격 크기 $\Delta_i$ 에 따라 변하므로 연속성 기준을 충족하지 못함.
단계 (C) 미세 격자 연속: SDE 를 미세 격자 ( $\Delta_{fine} \ll \min \Delta_{obs}$ ) 위에서 적분한 후 관측 일정에 따라 하위 표본 추출. $\Delta_{fine} \to 0$ 일 때, 이는 진정한 SDE 법칙으로 수렴하여 유한 단계에서 연속성 기준을 근사적으로 충족함.

2.2. 연속 시간 사전분포의 구성

제안된 구성은 다음과 같은 구성 요소를 가진 무작위 방향 비순환 그래프 (DAG) 위에서 단계 (C) 를 실현합니다:

그래프 샘플링: 변수를 무작위 DAG 또는 표준 구조 (예: 백도어, 프론트도어, 도구 변수) 에서 샘플링합니다. 숨겨진 교란 변수를 포함할 수 있습니다.
메커니즘 계열:
- 선형 드리프트: 드리프트가 부모들의 선형 결합인 Ornstein–Uhlenbeck (OU) 과정.
- 비선형 드리프트: 선형 부모 합을 대체하는 tanh 활성화 함수를 가진 작은 다층 퍼셉트론 (MLP) 으로, 궤적 안정성을 보장하기 위해 경계 설정됨.
정기 전환: 궤적의 일부 비율이 점착성 마르코프 전이 행렬을 가진 연속 시간 정기 전환 TSCM 을 따르며, 구조적 단절 (예: 약리학에서의 흡수 대 제거 단계) 을 모델링합니다.
개입: 사전분포는 특정 윈도우에 대한 하드 (값 설정), 소프트 (드리프트 이동), 시간 가변적 개입을 지원합니다. 반사실적 데이터는 동일한 Wiener 노이즈를 재사용하여 생성됩니다.
시뮬레이션: 궤적은 각 미세 단계에서 재샘플링된 Brownian 증분과 함께 Euler–Maruyama 를 사용하여 미세 격자 위에서 SDE 를 적분한 후, 불규칙한 관측 일정에 따라 하위 표본 추출하여 생성됩니다.

2.3. 아키텍처: $\Delta t$ 인지 PFN 인코더

이 모델은 개전 전 윈도우에서 작동하는 인과적 트랜스포머 인코더를 활용합니다.

시간 임베딩: 학습된 정수 위치 임베딩 대신, 연속 시간의 푸리에 임베딩을 사용합니다: $\phi(t) = W_\phi [\sin(2\pi f_k t), \cos(2\pi f_k t)]$ .
간격 임베딩: 관측 간격 ( $\Delta t_i$ ) 은 $\log(1+\Delta t_i)$ 변환 후 동일한 계열을 사용하여 임베딩됩니다.
추론: 모델은 관측 데이터, 타임스탬프, 개전 사양 및 쿼리 시간을 입력받아 개전 하의 결과 분포를 예측합니다.

3. 주요 기여

연속성 기준: 관측 일정에 대한 궤적 법칙 불변성을 요구하는 공식적 정의이며, 3 단계 분류 체계를 통해 운영화됨.
단계 (C) 구성: 미세 격자 적분, 무작위 DAG, OU/MLP 드리프트 및 불규칙 일정을 사용한 연속 시간 사전분포의 실용적 실현.
실증적 검증: 인코더 $\times$ 적분기 ( $2 \times 2$ ) 에 대한 통제된 제거 연구로, 미세 격자 적분이 단순 적분보다 우수함을 입증했으며, 특히 평가 격자가 정교해질수록 그 차이가 두드러짐.

4. 실험 결과

4.1. 제거 연구

저자들은 두 가지 사전분포 (Linear-OU 및 Nonlinear Neural-Drift) 와 두 가지 적분기 (Naive vs. Fine) 및 두 가지 인코더 (Positional-only vs. Time-aware) 로 PFN 을 훈련했습니다.

적분기 성능: 두 사전분포 및 평가 이산화 전반에 걸쳐 8 개 실험 셀 중 8 개에서 미세 격자 적분이 단순 적분보다 우수한 성능을 보였습니다. 성능 격차 ( $\Delta$ ) 는 평가 격자가 정교해질수록 단조 증가했습니다 (예: Neural 사전분포에서 평가 하위 단계가 정교해짐에 따라 격차가 +0.0048 에서 +0.0088 로 증가). 이는 미세 격자 훈련이 모델을 진정한 SDE 한계에 정렬시키는 반면, 단순 훈련은 이산화 편향을 도입함을 확인시켜 줍니다.
인코더 성능: 시간 인지 인코더 (간격의 푸리에 임베딩) 의 이점은 적분기에 따라 조건부였습니다.
- 단순 적분의 경우, 시간 인지 인코더가 위치 전용 인코더보다 현저히 우수하여 일정 의존적 역학을 보상했습니다.
- 미세 적분의 경우, 인코더 선택은 경험적으로 무의미했습니다 (차이 없음). 이는 데이터 생성 과정이 충분히 일정 불변성이 되어 명시적 간격 특징이 필요 없게 되었음을 시사합니다.

4.2. 제로샷 전이 (예비)

이 논문은 미세 조정 없이 세 가지 실제 데이터셋에 대한 예비 제로샷 전이 결과를 보고합니다:

약동학 (Theophylline & Warfarin): 모델은 Warfarin 혈장 농도에서 강한 상관관계 ( $r \approx 0.88$ ) 를 달성하여 용량 주도 궤적을 추적했습니다. Theophylline 에 대한 성능은 중간 수준이었습니다 (선형 모델 기준 $r \approx 0.53$ ). 저자들은 농도 데이터의 좁은 군집화로 인해 단순 기준 대비 RMSE 개선은 작았으나, 피어슨 상관관계가 동적 추적을 확인했다고 지적합니다.
물리 시스템 (Causal Chamber): 풍동 충격 장치에서 혼합 메커니즘 PFN 은 RPM 역학에서 $r = 0.95$ 의 피어슨 상관관계를 달성하여 선형 모델 ( $r = 0.39$ ) 을 크게 능가했습니다. 이는 모델이 비선형 포화 지수 역학을 성공적으로 포착했음을 시사합니다.

5. 중요성 및 주장

이 논문은 이산 모델을 위한 "SDE 의 옷"을 넘어선 인과적 기초 모델을 위한 정확한 연속성 기준을 제공한다고 주장합니다. 주요 중요성은 미세 격자 적분이 이 기준을 실현하는 데 필수적임을 입증하는 데 있으며, 이는 더 정교한 평가 격자에서 커지는 성능 격차로 입증됩니다.

저자들은 실제 응용에 대한 주장에서 겸손합니다:

제로샷 전이 결과는 "예비적"이며 "보조적"인 것으로 묘사되며, 아직 도메인별 기준 (예: PK 의 NONMEM) 과 경쟁력이 없습니다.
Causal Chamber 에 대한 성공은 구조적으로 적합하지 않은 "백색 잡음" 벤치마크에서 명시적 이진 개입과 실제 역학을 가진 데이터셋으로 전환해야만 이루어졌습니다.
이 논문은 다중 시드 복제 필요성, 현재 신경 드리프트가 시간 상관 노이즈 (마르코프 노이즈만 가능) 를 포착하지 못하는 한계, 그리고 실제 데이터 전이의 예비적 성격 등 한계를 인정합니다.

이 연구는 불규칙한 관측 일정을 가진 SDE 기반 TSCM 계열 전반에 걸쳐 인과 추론을 상쇄할 수 있는 구성을 제공함으로써, 진정한 연속 시간 인과 추론을 향한 기초적인 단계로 자리매김합니다.

Towards Continuous-time Causal Foundation Models