BiFM: Bidirectional Flow Matching for Few-Step Image Editing and Generation

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'BiFM(Bidirectional Flow Matching)'**이라는 새로운 기술을 소개합니다. 이 기술을 쉽게 이해하기 위해 **'사진 편집기'**와 **'강물'**에 비유해 설명해 드릴게요.

1. 문제 상황: "사진을 되돌리는 게 왜 이렇게 어려울까?"

지금까지 AI 가 사진을 만들거나 편집할 때는 주로 **'강물'**을 이용했습니다.

생성 (Generation): 흐린 안개 (노이즈) 에서 시작해 강물이 흐르듯 점점 선명한 사진으로 변해가는 과정입니다. (예: 안개 → 강 → 바다 → 아름다운 풍경)
편집 (Editing): 원래 사진을 다시 안개로 되돌려서 (역류), 원하는 부분만 수정한 뒤 다시 강물을 따라 새로운 사진으로 만드는 방식입니다.

하지만 여기서 큰 문제가 생겼습니다.
기존 기술은 사진을 안개로 되돌릴 때 (역류), 강물을 거꾸로 흐르게 하는 것이 아니라, '거꾸로 흐르는 것처럼 보이는' 근사치를 사용했습니다.

비유: 강물을 거꾸로 흐르게 하려면 정확한 물리 법칙을 따라야 하는데, 기존 기술은 "아마도 거꾸로 흘렀겠지?"라고 대충 추측해서 되돌렸습니다.
결과: 한두 번만 되돌리면 괜찮지만, 빨리 편집하려면 (단계 수를 줄이면) 그 추측 오차가 쌓여서 원래 사진의 배경이 망가지거나, 편집하려는 대상이 왜곡되는 문제가 발생했습니다.

2. BiFM 의 해결책: "거울처럼 완벽한 왕복 운동"

저자들은 이 문제를 해결하기 위해 BiFM을 개발했습니다. 핵심 아이디어는 **"생성과 역생성을 동시에 배우는 것"**입니다.

기존 방식 (일방통행):
- A(안개) → B(사진) 가는 길은 잘 알고 있지만, B → A 로 돌아오는 길은 지도가 없어서 대충 헤매는 상태였습니다.
BiFM 방식 (양방향 고속도로):
- AI 가 **A → B (생성)**와 B → A (되돌리기) 두 가지 방향을 동시에 공부하게 했습니다.
- 마치 거울처럼, 사진이 안개로 변하는 과정과 안개가 사진이 되는 과정이 서로 완벽하게 대칭이 되도록 훈련시켰습니다.

3. 왜 이것이 혁신적인가? (일상적인 비유)

비유 1: 요리와 다시 만들기

기존 기술: 요리를 한 번에 끝내려다 보니, 재료를 섞는 속도가 빨라지면 맛이 변해버렸습니다. (빠른 편집 = 품질 저하)
BiFM: 요리사 (AI) 가 "이 요리를 어떻게 만들었는지"뿐만 아니라, "완성된 요리를 다시 재료로 분해하는 법"도 함께 배웠습니다. 그래서 아주 빠르게 (한 두 단계 만에) 요리를 만들거나, 요리를 분해해서 다시 새로운 요리를 만들어도 맛 (화질과 배경) 이 변하지 않습니다.

비유 2: 내비게이션

기존: 목적지 (사진) 로 가는 길은 잘 알려졌지만, 출발지 (안개) 로 돌아가는 길은 "대충 이쪽 방향일 거야"라고 추정해서 갔습니다. 그래서 돌아오면 엉뚱한 곳에 도착했습니다.
BiFM: 왕복 내비게이션을 장착했습니다. 가는 길과 오는 길의 정확한 경로를 모두 알고 있어서, 한 번에 (One-step) 출발지로 돌아와도 정확히 제자리로 돌아옵니다.

4. BiFM 이 가져온 변화

이 기술을 사용하면 다음과 같은 장점이 생깁니다:

초고속 편집: 사진을 몇 단계만 거치더라도 (심지어 1 단계라도) 배경이 깨지지 않고 깔끔하게 편집할 수 있습니다.
정확한 복원: 사진을 AI 가 다시 만들어도, 원본 사진의 디테일 (눈, 옷 주름 등) 이 살아납니다.
범용성: 이미 잘 만들어진 거대한 AI 모델 (Stable Diffusion 3 등) 에 이 기술을 적용하기만 하면 되므로, 무거운 새로운 모델을 처음부터 만들 필요 없이 가볍게 업그레이드가 가능합니다.

요약

BiFM은 "사진을 만들고, 그걸 다시 되돌리는 과정"을 한 명의 AI 가 양방향으로 완벽하게 익히게 만든 기술입니다. 덕분에 우리는 매우 빠른 속도로 사진을 편집하더라도, 원래 사진의 품질과 배경이 망가지지 않는 놀라운 결과를 얻을 수 있게 되었습니다.

마치 시간 여행을 할 때, 과거로 갔다가 다시 미래로 돌아올 때 시간의 흐름이 정확히 일치하도록 만든 것과 같습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

최근 확산 모델 (Diffusion Models) 과 흐름 매칭 (Flow Matching) 모델은 반복적인 샘플링을 통해 노이즈를 제거함으로써 뛰어난 이미지 생성 및 편집 능력을 보여주고 있습니다. 특히, 역과정 (Inversion) 을 통해 원본 이미지를 잠재 공간 (Latent Space) 으로 매핑한 후 새로운 프롬프트로 다시 생성하는 **역기반 이미지 편집 (Inversion-based Image Editing)**이 가능해졌습니다.

그러나 기존 방법론에는 다음과 같은 한계가 존재합니다:

Few-Step Sampling 의 한계: 실시간 편집을 위해 샘플링 단계를 줄이면 (Few-Step), 국소 선형화 (Local Linearization) 및 ODE 솔버의 근사 오차가 증폭되어 편집 품질이 급격히 저하됩니다.
역과정 (Inversion) 의 어려움: 기존 역과정 방법들은 대부분 학습이 필요 없는 훈련 없는 (Training-free) 방식 (예: DDIM 역전) 이거나, 추가적인 보조 네트워크를 필요로 하는 튜닝 기반 방식입니다.
- Training-free: 큰 시간 간격 (Time-step) 에서 근사 오차가 누적되어 의미론적 왜곡 (Semantic Drift) 이나 배경 손상이 발생합니다.
- Tuning-based: 추가 네트워크나 모듈을 도입하여 복잡성을 높이고, 다른 아키텍처로의 일반화 능력을 제한합니다.

따라서, 적은 단계 (Few-Step) 의 샘플링 예산 내에서 역전환 (Inversion) 과 생성 (Generation) 을 동시에 학습할 수 있는 단일 모델을 개발하는 것이 핵심 과제입니다.

2. 방법론 (Methodology)

저자들은 **BiFM (Bidirectional Flow Matching)**이라는 통합 프레임워크를 제안합니다. 이는 생성과 역전환을 하나의 모델 내에서 공동 학습하며, 물리적으로 제약된 양방향 평균 속도장 (Bidirectional Average Velocity Field) 을 학습합니다.

핵심 아이디어 및 구성 요소

평균 속도장 (Average Velocity Field) 파라미터화:
- 기존 모델이 시간 $t$ 에서의 순간 속도 (Instantaneous Velocity) 를 학습하는 대신, BiFM 은 연속적인 시간 구간 $[t, t']$ 에 걸친 평균 속도장을 직접 학습합니다.
- 이는 ODE 의 적분 경로를 근사하여 적은 단계 (Few-Step) 에서도 정확한 경로를 따라가도록 합니다.
MeanFlow Identity 의 확장 (Bidirectional Extension):
- 기존 MeanFlow Identity 는 생성 (Noise $\to$ Image) 방향의 평균 속도와 순간 속도의 관계를 정의합니다.
- BiFM 은 이를 **양방향 (Bidirectional)**으로 확장합니다. 즉, 생성 방향 ( $t \to t'$ ) 과 역전환 방향 ( $t' \to t$ ) 의 평균 속도场均이 동일한 순간 속도장 $v(x_t, t)$ 에서 유도된다는 물리적 제약 하에 학습됩니다.
- 양방향 일관성 손실 (Bidirectional Consistency Loss): 생성된 평균 속도와 역방향으로 계산된 평균 속도가 서로 부호만 반대일 것 (Negation) 을 강제하여 역전환의 정확도를 높입니다.
학습 전략:
- 연속 시간 구간 감독 (Continuous Time-Interval Supervision): 임의의 시간 구간 $[t, t']$ 에 대해 모델을 학습시킵니다.
- 안정화 기법: 양방향 일관성 목표를 점진적으로 강화하는 Warm-up 스케줄링과 경량화된 **시간 간격 임베딩 (Time-Interval Embedding)**을 도입하여 학습 안정성을 확보합니다.
- 유연한 적용: 사전 학습된 확산 모델 (예: Stable Diffusion 3) 을 LoRA 등을 통해 미세 조정 (Fine-tuning) 하거나, 처음부터 (From Scratch) 학습할 수 있습니다.
추론 과정:
- 역전환 (Inversion): 원본 이미지를 입력받아 $t=1$ 에서 $t=0$ 으로 평균 속도를 따라 이동하여 잠재 벡터를 얻습니다.
- 생성 (Generation): 잠재 벡터에서 $t=0$ 에서 $t=1$ 로 목표 프롬프트에 따라 평균 속도를 따라 이동하여 편집된 이미지를 생성합니다.

3. 주요 기여 (Key Contributions)

BiFM 프레임워크 제안: 단일 모델 내에서 Few-Step 샘플링 조건 하에 생성과 역전환 기반 편집을 동시에 수행할 수 있는 통합 흐름 매칭 프레임워크를 최초로 제안했습니다.
효율적인 미세 조정 (Efficient Fine-tuning): 대규모 사전 학습된 텍스트 - 이미지 확산 모델 (예: Stable Diffusion 3) 에 BiFM 을 적용하여 이미지 편집 작업을 위해 효율적으로 미세 조정할 수 있음을 증명했습니다.
광범위한 평가 및 분석: 다양한 이미지 편집 및 생성 작업에서 기존 Few-Step 방법론들을 일관되게 능가하는 성능을 입증하고, 핵심 설계 선택 (시간 구간 조건부, 손실 함수 등) 의 영향을 분석하기 위한 철저한 제거 실험 (Ablation Study) 을 수행했습니다.

4. 실험 결과 (Results)

BiFM 은 다양한 벤치마크에서 기존 방법론 (Training-free inversion, Few-step editing, One-step generators) 보다 우수한 성능을 보였습니다.

이미지 편집 (PIE-Bench):
- Few-Step (4 단계) 및 One-Step (1 단계): 배경 보존 (Background Preservation) 과 의미론적 정합성 (CLIP Semantics) 모두에서 기존 최첨단 방법 (TurboEdit, SwiftEdit 등) 을 능가했습니다.
- 특히 1 단계 (One-Step) 편집에서 구조적 보존과 세부 사항 유지 면에서 탁월한 성능을 보였습니다.
역전환 및 재구성 (Inversion & Reconstruction):
- DDIM 역전환, PnP Inv, RF-Edit 등 기존 방법들과 비교하여 재구성 오차 (MSE, LPIPS) 를 크게 줄이고, 원본 이미지의 세부 사항 (눈, 객체 기하학 등) 을 더 정확하게 복원했습니다.
이미지 생성 (Image Generation):
- MSCOCO-256: BiFM 을 적용한 MMDiT 모델은 FID 점수를 4.57 로 낮추어 기존 Flow Matching 및 MeanFlow 기반 모델보다 우수한 생성 품질을 보였습니다.
- CIFAR-10 및 ImageNet: 1 단계 (One-Step) 생성에서도 기존 Rectified Flow, sCT, MeanFlow 등을 능가하는 FID 점수를 기록했습니다.

5. 의의 및 결론 (Significance)

이 논문은 Few-Step 확산 모델의 가장 큰 약점인 역전환 (Inversion) 의 불안정성을 해결하는 획기적인 접근법을 제시합니다.

이론적 통찰: 확산/흐름 매칭 모델의 역과정 학습이 단순히 역순으로 ODE 를 푸는 문제가 아니라, 양방향 평균 속도장의 물리적 일관성을 학습하는 문제임을 규명했습니다.
실용적 가치: 추가적인 보조 네트워크나 복잡한 최적화 과정 없이, 단일 모델을 통해 실시간 (Few-Step/One-Step) 인터랙티브 이미지 편집을 가능하게 합니다.
확장성: 기존 대규모 생성 모델 (Stable Diffusion 3 등) 에 쉽게 통합되어 적용 가능하므로, 실제 산업 응용 및 연구 분야에서 널리 채택될 잠재력이 큽니다.

결론적으로 BiFM 은 Few-Step 샘플링 환경에서도 높은 품질의 생성과 정밀한 편집을 동시에 달성할 수 있는 새로운 표준을 제시합니다.