Foresight Diffusion: Improving Sampling Consistency in Predictive Diffusion Models

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"예측을 잘하는 AI"**를 만드는 새로운 방법, **'포어사이트 디퓨전 (Foresight Diffusion)'**에 대해 설명합니다.

간단히 말해, **"미래를 예측할 때 AI 가 너무 헛소리를 하거나 (할루시네이션), 같은 조건에서도 매번 엉뚱한 답을 내놓는 문제를 해결했다"**는 내용입니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 문제: "예측"과 "창작"은 다릅니다!

지금까지 AI(확산 모델) 는 주로 **창작 (Generative)**에 쓰였습니다.

창작의 예: "사과 그림 그려줘"라고 하면, AI 는 사과 하나를 그릴 수도 있고, 사과 두 개를 그릴 수도 있고, 빨간 사과를 그릴 수도 있습니다. **다양성 (Diversity)**이 중요하죠.

하지만 **예측 (Predictive)**은 다릅니다.

예측의 예: "로봇 팔이 앞으로 1 초 뒤 움직이면 어떨까?"라고 물었을 때, AI 는 "어쩌면 왼쪽으로 갈 수도 있고, 오른쪽으로 갈 수도 있어..."라고 여러 가지 가능성을 제시하면 안 됩니다. 물리 법칙상 정확한 하나의 미래가 있을 텐데, AI 가 매번 다른 엉뚱한 답을 내놓으면 로봇은 제자리를 맴돌거나 넘어질 수 있습니다.

기존 AI 의 문제점:
기존의 '일반적인 확산 모델 (Vanilla Diffusion)'은 창작에는 훌륭하지만, 예측에는 약간 망설이는 성격을 가졌습니다. 같은 상황을 보여줘도 매번 조금씩 다른 그림을 그려내서, **가장 나쁜 경우 (Worst-case)**에 엉망이 되는 문제가 있었습니다.

2. 원인: "이해"와 "그리기"가 뒤섞여 있어요

왜 이런 일이 생길까요? 저자들은 AI 의 뇌 구조에 문제가 있다고 지적합니다.

기존 방식: AI 가 "과거의 영상 (조건)"을 보고 "미래의 영상 (목표)"을 그릴 때, **이해 (Condition Understanding)**와 **그리기 (Denoising)**를 같은 뇌세포 (네트워크) 가 동시에 해야 합니다.
비유: 요리사가 "손님이 뭐를 주문했는지 (조건)"를 이해하면서 동시에 "요리 (그리기)"를 해야 하는데, 두 가지 일을 동시에 하느라 주문 내용을 제대로 못 듣고 요리를 해치우는 꼴입니다. 그래서 요리가 매번 조금씩 달라지거나, 엉뚱한 맛이 날 수 있습니다.

3. 해결책: "포어사이트 디퓨전 (ForeDiff)"

이 문제를 해결하기 위해 제안한 방법은 **"일단 생각한 뒤, 그리는 것"**입니다. 두 단계를 완전히 분리했습니다.

① 단계 1: '예측 전문가' (Deterministic Stream)

역할: 과거의 영상과 명령만 보고, "미래가 어떻게 될지"를 정확하게 계산하는 역할만 합니다.
비유: 요리사가 주문 내용을 보고 "아, 이 손님은 매운 음식을 원하고, 고기 양은 적게 원하네"라고 정확하게 분석하는 '식당 매니저' 역할을 합니다. 이 단계에서는 그림을 그리지 않고, 오직 미래의 핵심 정보만 뽑아냅니다.

② 단계 2: '그림 그리는 예술가' (Generative Stream)

역할: '식당 매니저'가 분석해 준 핵심 정보를 받아서, 실제 영상을 그립니다.
비유: 이제 요리사 (그림 그리는 AI) 는 "매니저가 분석한 대로" 요리를 합니다. 주문 내용을 다시 생각할 필요 없이, 분석된 정보만 믿고 집중해서 그립니다.

핵심 아이디어:
이렇게 **이해 (분석)**와 **생성 (그리기)**를 분리하고, 먼저 분석을 완벽하게 시켜서 그 결과를 그림 그리는 과정에 전달하면, AI 는 매번 똑같이 정확한 미래를 예측할 수 있게 됩니다.

4. 결과: 얼마나 좋아졌나요?

이 방법을 적용한 실험 결과 (로봇 영상 예측, 날씨/유체 시뮬레이션 등) 는 다음과 같습니다.

정확도 향상: 미래의 영상을 더 정확하게 예측했습니다.
일관성 (Consistency) 대폭 향상: 같은 조건으로 100 번 예측을 해도, 100 번 모두 매우 비슷한 (오차가 적은) 결과를 내놓았습니다.
비유: 기존 AI 가 "내일 비가 올 수도 있고, 눈이 올 수도 있고, 해가 뜰 수도 있어"라고 100 가지 다른 날씨를 예측했다면, ForeDiff 는 "내일은 비가 올 확률이 99% 이다"라고 정확하고 일관된 답을 내놓습니다.

요약

이 논문은 **"미래를 예측할 때는 창의적인 상상력이 아니라, 정확한 분석이 먼저 필요하다"**는 점을 깨달았습니다.

AI 가 먼저 미래를 '예측 (분석)'하는 전문가로 훈련시킨 뒤, 그 결과를 바탕으로 미래를 '그림'으로 만들어내는 예술가에게 전달하는 두 단계 방식을 도입함으로써, AI 가 헛소리를 하거나 엉뚱한 답을 내놓는 문제를 해결했습니다.

이는 로봇이 스스로 움직이거나, 기상 예보, 의료 진단 등 정확한 예측이 생명인 분야에서 AI 를 훨씬 더 신뢰할 수 있게 만들어 줄 중요한 기술입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

확산 모델 (Diffusion Models) 의 예측 학습 (Predictive Learning) 적용 시 발생하는 '샘플링 일관성 (Sampling Consistency)' 부족 문제를 해결하는 것이 본 논문의 핵심 주제입니다.

배경: 확산 모델은 이미지 생성, 비디오 생성 등 다양한 생성 작업에서 최첨단 성능을 보였으며, 최근에는 과거 관측치를 바탕으로 미래의 동역학을 예측하는 '예측 학습'에도 적용되고 있습니다.
문제점:
- 생성 작업 vs 예측 작업: 일반적인 생성 작업 (예: 텍스트 - 이미지) 은 다양성 (Diversity) 을 장려하지만, 예측 작업 (예: 로봇 비전, 기상 예보) 은 물리적으로 일관된 정답 (Ground Truth) 에 가까운 단일 또는 낮은 분산의 결과를 요구합니다.
- 샘플링 일관성 부재: 기존 확산 모델 (Vanilla Diffusion) 은 최적의 경우 (Best-case) 나 평균 성능은 우수하지만, 동일한 조건에서 생성된 샘플 간의 편차 (Variance) 가 크고 최악의 경우 (Worst-case) 에 오류가 심하게 발생합니다. 이는 '할루시네이션'이나 조건에 대한 약한 제어로 이어집니다.
근본 원인: 저자들은 확산 모델의 예측 능력이 최적화되지 않은 주된 원인이 조건 이해 (Condition Understanding) 와 목표 노이즈 제거 (Target Denoising) 가 공유 아키텍처와 동시 학습 (Co-training) scheme 내에서 얽혀 (Entangled) 있기 때문이라고 분석했습니다. 즉, 모델이 노이즈 제거 과정에 집중하다 보니 조건 입력 (과거 프레임, 행동 등) 을 정확히 이해하고 미래를 예측하는 능력이 저하됩니다.

2. 방법론 (Methodology: Foresight Diffusion, ForeDiff)

저자들은 조건 이해와 노이즈 제거를 분리하여 예측 능력을 향상시키는 Foresight Diffusion (ForeDiff) 프레임워크를 제안합니다.

A. 아키텍처: 예측 스트림과 생성 스트림의 분리 (Decoupling)

기존 확산 모델이 조건 ( $y$ ) 과 노이즈가 섞인 목표 ( $x_t$ ) 를 하나의 네트워크로 동시에 처리하는 것과 달리, ForeDiff 는 두 개의 독립적인 스트림을 도입합니다.

예측 스트림 (Predictive Stream):
- 조건 입력 ( $y$ ) 만을 처리하는 결정론적 (Deterministic) 스트림입니다.
- ViT (Vision Transformer) 블록으로 구성되며, 노이즈 ( $x_t$ ) 와는 무관하게 조건을 이해하고 미래의 잠재적 표현 (Informative Representations) 을 추출합니다.
- 이 스트림은 $x_t$ 에 의존하지 않으므로 조건에 대한 이해도가 높습니다.
생성 스트림 (Generative Stream):
- 표준 확산 (Denoising) 과정을 수행하는 스트림입니다.
- DiT (Diffusion Transformer) 블록을 사용합니다.
- 입력으로 노이즈가 섞인 목표 ( $x_t$ ) 와 **예측 스트림에서 추출된 고정된 표현 ( $g_M$ )**을 받습니다.

B. 학습 전략: 2 단계 학습 (Two-Stage Training)

단순히 아키텍처만 분리하는 것 (ForeDiff-zero) 을 넘어, 예측 능력을 극대화하기 위해 2 단계 학습을 수행합니다.

1 단계 (예측기 사전 학습):
- 예측 스트림을 독립적인 결정론적 예측기 ( $f_\xi$ ) 로 훈련합니다.
- 목표는 조건 ( $y$ ) 에서 미래 ( $x_0$ ) 를 직접 예측하는 MSE 손실 함수를 최소화하는 것입니다.
- 이를 통해 예측 스트림이 노이즈 제거 없이도 강력한 조건 이해 능력을 갖추도록 합니다.
2 단계 (생성기 학습):
- 1 단계에서 학습된 예측 스트림의 가중치를 **동결 (Freeze)**합니다.
- 예측 스트림의 중간 표현 ( $g_M$ ) 을 생성 스트림의 조건 입력으로 사용합니다.
- 생성 스트림만 노이즈 제거 손실 (Flow Matching) 을 통해 학습합니다.
- 이 방식은 생성 과정이 예측된 '선견지명 (Foresight)' 정보에 기반하도록 하여 샘플링 일관성을 보장합니다.

3. 주요 기여 (Key Contributions)

예측 학습에서의 확산 모델 한계 규명: 기존 확산 모델이 예측 작업에서 샘플링 일관성이 부족하다는 점을 실증적으로 규명하고, 그 원인을 조건 이해와 노이즈 제거의 아키텍처적 얽힘으로 분석했습니다.
ForeDiff 프레임워크 제안: 조건 이해를 결정론적 예측 스트림으로 분리하고, 사전 학습된 예측기를 활용하여 생성을 안내하는 새로운 아키텍처를 제안했습니다.
성능 향상: 로봇 비디오 예측 및 과학적 시공간 예측 작업에서 기존 확산 모델 및 다른 베이스라인 대비 예측 정확도 (Accuracy) 와 샘플링 일관성 (Consistency) 을 동시에 크게 향상시켰습니다.
확장성: 파라미터 수 증가 (Scaling) 만으로는 설명되지 않는 아키텍처적 설계의 유효성을 입증했습니다.

4. 실험 결과 (Results)

실험은 RoboNet, RT-1 (로봇 비디오 예측) 및 HeterNS (유체 역학 시공간 예측) 데이터셋에서 수행되었습니다.

정량적 평가:
- 일관성 지표 개선: 생성된 샘플들의 표준 편차 (STD) 를 측정하는 지표 (STDPSNR, STDLPIPS 등) 에서 ForeDiff 가 Vanilla Diffusion 대비 현저히 낮은 값을 기록하여 일관성이 뛰어나다는 것을 증명했습니다.
- 정확도 향상: FVD (Fréchet Video Distance), LPIPS, PSNR 등 주요 성능 지표에서도 기존 모델들을 상회하거나 경쟁력 있는 성능을 보였습니다. 특히 Worst-case LPIPS 에서 큰 개선을 보였습니다.
- Calibration: CRPS 및 NLL 지표를 통해 ForeDiff 의 낮은 분산이 단순히 모드 붕괴 (Mode Collapse) 가 아니라, 더 정확한 조건 정렬 (Conditional Alignment) 에 기인한 것임을 확인했습니다.
정성적 평가:
- 로봇 비디오 예측에서 Vanilla Diffusion 은 물체의 형태가 왜곡되거나 붕괴되는 현상이 발생했으나, ForeDiff 는 구조적으로 타당하고 시각적으로 일관된 프레임을 생성했습니다.
- 유체 역학 시뮬레이션에서도 시간이 지남에 따라 Vanilla Diffusion 은 오차가 누적되지만 ForeDiff 는 정확한 예측을 유지했습니다.
Ablation Study:
- 예측 스트림의 ViT 블록 수를 늘리면 성능이 향상되지만 일정 수준 이후에는 체감 효과가 줄어듭니다.
- 단순한 파라미터 증가 (Vanilla Diffusion 확장) 보다 ForeDiff 의 하이브리드 아키텍처가 훨씬 효과적이었습니다.
- 2 단계 학습 전략이 필수적이며, 단순한 동시 학습 (Joint Training) 은 성능 향상이 제한적이었습니다.

5. 의의 및 결론 (Significance)

본 논문은 확산 모델이 예측 학습 분야에서 가질 수 있는 잠재력을 극대화하기 위한 새로운 패러다임을 제시합니다.

확산 모델의 한계 극복: 확산 모델이 가진 본질적인 확률적 특성과 예측 작업이 요구하는 결정론적 정확성 사이의 괴리를, 아키텍처적 분리 (Decoupling) 와 사전 학습 전략을 통해 효과적으로 해결했습니다.
신뢰성 있는 예측 모델: 고변동성 (High Variance) 으로 인해 실제 응용 (로봇 제어, 과학 시뮬레이션 등) 에 적용하기 어려웠던 확산 모델 기반 예측기를, 신뢰할 수 있고 제어 가능한 모델로 발전시켰습니다.
미래 전망: 이 연구는 생성 모델과 예측 모델의 경계를 허물고, 조건 이해와 생성 과정을 분리하는 설계 철학이 향후 다양한 시공간 예측 작업에 적용될 수 있음을 시사합니다.

요약하자면, ForeDiff는 "예측을 위한 예측 (Foresight)"을 통해 확산 모델의 샘플링 일관성을 획기적으로 개선함으로써, 실제 세계의 동역학을 모델링하는 데 있어 더 강력하고 신뢰할 수 있는 도구를 제공합니다.