Score-Guided Proximal Projection: A Unified Geometric Framework for Rectified Flow Editing

Each language version is independently generated for its own context, not a direct translation.

1. 문제 상황: "그림을 고치기 힘든 AI"

AI 가 그림을 그리는 방식 (Rectified Flow) 은 이미 매우 훌륭합니다. 하지만 우리가 "고양이를 사자로 바꿔줘"라고 명령하거나, 흐릿한 사진을 선명하게 만들 때 두 가지 큰 문제가 발생합니다.

문제 A: 너무 꽉 잡힌 AI (기하학적 잠금, Geometric Locking)
- 비유: 마치 철제 로봇이 그림을 수정하는 상황입니다. 로봇은 원래 그림의 뼈대 (윤곽선) 를 절대 벗어나지 못하게 고정해 둡니다.
- 결과: "고양이를 사자로"라고 해도, 로봇은 고양이의 귀 모양이나 몸통 형태를 절대 바꾸지 못합니다. 그냥 고양이 털만 사자처럼 바뀐 '기괴한 고양이'가 나옵니다. 너무 원본에 집착해서 새로운 아이디어를 받아주지 못하는 것입니다.
문제 B: 너무 불안정한 AI (확률적 샘플링, DPS)
- 비유: 마치 미끄러운 빙판에서 그림을 고치는 상황입니다. AI 가 "여기서 저기로 가자"라고 계산하지만, 계산을 할 때마다 미끄러져서 엉뚱한 곳으로 날아가버립니다.
- 결과: 계산이 너무 복잡하고 불안정해서, 그림이 뭉개지거나 엉망이 되는 경우가 많습니다.

2. 해결책: SGPP (스마트한 나침반)

이 논문은 이 두 문제를 모두 해결하는 SGPP라는 새로운 방법을 제안합니다.

핵심 비유: "탄성 있는 고무줄"과 "지형도"

SGPP 는 그림을 고칠 때 두 가지 힘을 동시에 사용합니다.

원본에 묶여 있는 고무줄 (Fidelity):
- 그림의 원래 모양 (고양이의 얼굴) 을 잃지 않도록 잡아주는 힘입니다. 하지만 이 고무줄은 완전히 딱딱한 철줄이 아니라, 약간의 탄성이 있는 고무줄입니다.
지형도 (Score Field):
- AI 가 이미 배운 "사자가 어떻게 생겼는지"에 대한 지식 (지형도) 입니다. 이 지형도를 따라가면 자연스럽게 사자가 됩니다.

SGPP 의 마법:
이 방법은 고무줄을 너무 꽉 당기지 않으면서 (탄성 허용), 지형도를 따라 자연스럽게 이동하게 합니다.

원본의 특징 (고양이 얼굴) 은 유지하되,
새로운 특징 (사자의 갈기, 넓은 주둥이) 은 유연하게 추가할 수 있습니다.

3. SGPP 가 어떻게 작동하나요? (세 가지 단계)

① "안전한 길"을 보장합니다 (Normal Contraction)

AI 가 길을 잃고 엉뚱한 곳 (예: 고양이와 사자가 섞인 괴물) 으로 갈 때, SGPP 는 **"이건 아니야, 다시 안전한 길 (데이터가 존재하는 영역) 로 돌아와"**라고 부드럽게 잡아당깁니다.

비유: 마치 자석처럼, AI 가 엉뚱한 방향으로 가려 하면 자연스럽게 원래 있어야 할 '진짜 그림'의 길로 다시 끌어당깁니다. 그래서 그림이 뭉개지거나 이상해지는 것을 막아줍니다.

② "부드러운 안내"를 제공합니다 (Soft Guidance)

기존 방법들은 "원본을 100% 유지하라"거나 "완전히 새로 그려라"는 식으로 이분법적이었습니다. 하지만 SGPP 는 스위치를 조절할 수 있습니다.

비유: 볼륨 조절 노브를 돌리는 것과 같습니다.
- 노브를 왼쪽으로 (원본 유지): 고양이 얼굴을 거의 그대로 유지하며 털만 바꿉니다.
- 노브를 오른쪽으로 (생성 자유도): 고양이 얼굴을 사자 얼굴로 완전히 바꿔도 됩니다.
- 이 중간 구간에서 사용자는 원하는 만큼의 변화를 자유롭게 조절할 수 있습니다.

③ "계산 없이" 빠르게 작동합니다

기존의 복잡한 방법들은 매번 "이게 맞는지 다시 계산"하는 과정에서 시간이 오래 걸리고 불안정했습니다. 하지만 SGPP 는 AI 가 이미 가지고 있는 **지식 (Score Field)**을 직접 활용합니다.

비유: 복잡한 지도를 다시 그리는 대신, 이미 머릿속에 있는 지형도를 보고 바로 길을 찾는 것과 같습니다. 그래서 빠르고 안정적입니다.

4. 결론: 왜 이것이 중요한가요?

이 기술은 **사진 복원 (흐린 사진 선명하게)**이나 이미지 편집 (고양이를 사자로) 같은 작업에서 혁신을 가져옵니다.

이전: "원본을 너무 잘 지키려니 바꿀 게 없다"거나 "바꾸려니 원본이 망가진다"는 딜레마가 있었습니다.
이제 (SGPP): "원본의 정체성은 지키되, 새로운 상상력은 자유롭게" 표현할 수 있는 완벽한 균형을 찾았습니다.

한 줄 요약:

SGPP 는 AI 가 그림을 고칠 때, 원본의 특징을 잃지 않으면서도 새로운 아이디어를 자연스럽게 받아들일 수 있게 도와주는 '지능적이고 유연한 나침반'입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

Rectified Flow (RF) 모델은 기존 확산 모델보다 직선적이고 효율적인 전송 경로를 제공하여 최첨단 생성 품질을 달성했습니다. 그러나 사전 훈련된 RF 모델을 정밀한 제어 작업 (예: 의미론적 편집, 블라인드 이미지 복구) 에 활용하는 것은 여전히 난제입니다.

기존 접근법은 크게 두 가지로 나뉘며, 각각 근본적인 한계를 가집니다:

역전 기반 편집 (Inversion-Based Editing, 예: RF-Inversion):
- 소스 이미지의 노이즈 역전 경로를 엄격하게 따라가도록 강제합니다.
- 한계: "기하학적 잠금 (Geometric Locking)" 현상이 발생합니다. 원본 경로를 너무 엄격하게 따르기 때문에 의미론적 변화나 큰 분포 외 (OOD) 손상을 수정할 때 충분한 유연성이 부족합니다.
후사 확률 샘플링 및 매니폴드 제약 (Posterior Sampling, 예: DPS, MCG):
- 가능도 (Likelihood) 목적 함수를 최적화하여 데이터를 복원합니다.
- 한계: 디노이징 네트워크의 야코비안 (Jacobian) 을 역전파해야 하므로 계산 비용이 매우 높고, 고 노이즈 수준에서 불안정합니다. 또한 명시적인 투영 (Projection) 은 실제 적용 시 취약합니다.

핵심 과제: 생성의 자유도 (Realism) 와 입력에 대한 충실도 (Fidelity) 사이의 균형을 맞추면서, 계산적으로 효율적이고 이론적으로 안정적인 방법을 찾는 것입니다.

2. 방법론 (Methodology: SGPP)

저자들은 점수 기반 근사 투영 (Score-Guided Proximal Projection, SGPP) 을 제안합니다. 이는 결정론적 최적화와 확률적 샘플링 사이의 간극을 메우는 통합 프레임워크입니다.

2.1 근사 최적화 문제 재정의

복원 작업을 시간 의존적 매니폴드 (Time-dependent manifold) 상의 근사 최적화 문제로 재정의합니다.

에너지 잠재력 (Energy Potential): 다음 두 가지로 구성된 동적 에너지 함수를 정의합니다.
1. 충실도 잠재력 (Fidelity Potential): 입력 이미지 ( $x_{ref}$ ) 와 현재 상태 ( $x_t$ ) 사이의 거리를 최소화합니다.
2. 생성 잠재력 (Generative Potential): 사전 훈련된 RF 점수 필드 (Score Field) 에서 유도됩니다.
목표 함수:
$J_t(x_t) = \frac{1}{2\sigma_p^2(t)}\|x_t - (1-t)x_{ref}\|^2 - \log p_t(x_t)$
여기서 $\sigma_p(t)$ 는 근사 분산 (Proximal Variance) 하이퍼파라미터로, 제약의 강도를 조절합니다.

2.2 기하학적 프레임워크 및 안정성

RF 의 점수 필드를 시간 의존적 매니폴드 $M_t$ 에 대한 기하학적 성분으로 분해하여 분석합니다.

점수 분해 (Score Decomposition): RF 점수는 (1) 매니폴드로의 복원력 (Normal force), (2) 매니폴드 내의 의미론적 흐름 (Tangential drift), (3) 곡률 (Curvature) 성분으로 나뉩니다.
수직 수축 (Normal Contraction): 제안된 업데이트 규칙은 매니폴드에서 벗어난 점들을 매니폴드로 지수적으로 수축시키는 성질을 가집니다. 이는 분포 외 (OOD) 입력을 데이터 매니폴드 위에 안전하게 "스냅 (Snap)" 시킵니다.
야코비안 프리 (Jacobian-Free): 기존 DPS 와 달리 역전파를 통한 야코비안 계산이 필요 없으며, 사전 훈련된 점수 함수를 기하학적 오라클로 활용합니다.

2.3 "소프트 가이드 (Soft Guidance)"

$\sigma_p \to 0$ (Hard Guidance): RF-Inversion 과 수학적으로 동등해지며, 경로가 원본에 강하게 고정됩니다.
$\sigma_p > 0$ (Soft Guidance): 근사 분산을 완화하여 제약 조건을 "탄성 (Elastic)" 있게 만듭니다. 이를 통해 의미론적 변경 (예: 고양이 $\to$ 사자) 을 수행하면서도 구조적 본질은 유지할 수 있는 유연한 가이드가 가능해집니다.

3. 주요 기여 (Key Contributions)

통합 이론적 프레임워크: SGPP 는 RF-Inversion 과 같은 역전 기반 방법과 DPS 와 같은 확률적 샘플링 방법을 하나의 근사 최적화 프레임워크로 통합합니다. RF-Inversion 은 SGPP 의 $\sigma_p \to 0$ 인 극한 경우로 해석됩니다.
이론적 안정성 증명:
- 정규 수축 (Normal Contraction): 제안된 알고리즘이 매니폴드로의 수렴을 보장하며, 불안정성을 제거함을 증명했습니다.
- MAP 동치성 (MAP Equivalence): 알고리즘의 고정점이 매니폴드에 제약된 사후 최대 가능도 (MAP) 추정치와 일치함을 증명했습니다.
훈련 없는 (Training-Free) 솔루션: 추가 네트워크나 복잡한 거리 함수 없이 사전 훈련된 RF 모델만 사용하여 블라인드 이미지 복구 및 의미론적 편집을 수행합니다.
지속적인 트레이드오프 조절: $\sigma_p$ 파라미터를 통해 "엄격한 충실도 (재구성)"와 "무제약 생성 (현실감)" 사이의 연속적인 균형을 조절할 수 있습니다.

4. 실험 결과 (Results)

저자들은 2D 기하학적 실험과 고해상도 FLUX 모델을 사용한 실제 이미지 작업으로 SGPP 를 검증했습니다.

기하학적 검증 (2D Two-Moons):
- DPS: 노이즈 수준이 높을 때 기울기가 폭발하거나 매니폴드를 벗어나는 불안정성을 보임.
- RF-Inversion: "기하학적 잠금"으로 인해 의미론적 변화가 거의 발생하지 않음.
- SGPP: OOD 점들을 매니폴드 척추 (Spine) 로 안정적으로 수렴시키며, 확률적 변이 (SGPP-SDE) 를 통해 사후 분포의 다양성을 잘 포착함.
제로샷 의미론적 편집 (Zero-Shot Semantic Editing):
- 과제: 고양이 이미지를 "사자"로 편집.
- RF-Inversion: 원본 고양이의 윤곽을 너무 강하게 유지하여 사자의 특징 (갈기 등) 이 제대로 생성되지 않음 (텍스처만 바뀜).
- SGPP: $\sigma_p=0.2$ 설정으로 "소프트 가이드"를 적용. 사자의 갈기와 주둥이 같은 구조적 변화를 생성하면서도 자세와 배경은 원본과 일관되게 유지.
충실도 - 현실감 트레이드오프:
- $\sigma_p$ 를 0.01 로 낮추면 원본과 거의 동일한 재구성이 가능하고, 0.5 로 높이면 사전 분포에 기반한 고주파수 디테일 (새로운 질감 등) 이 생성됨. 이는 사용자가 원하는 대로 조절 가능한 스펙트럼을 제공함을 보여줌.

5. 의의 및 결론 (Significance)

이 논문은 Rectified Flow 기반 생성 모델의 제어 문제를 기하학적 관점에서 재해석하고 해결책을 제시했습니다.

이론적 통찰: 기존 방법들이 직관적으로 사용되던 "역전 (Inversion)"과 "후사 확률 (Posterior Sampling)"이 사실은 동일한 근사 최적화 문제의 서로 다른 극한 (Hard vs. Soft) 임을 수학적으로 증명했습니다.
실용적 가치: 계산 비용이 많이 드는 야코비안 계산을 제거하면서도, 기존 방법들의 불안정성과 경직성을 동시에 해결합니다.
미래 방향: SGPP 는 추가 학습 없이도 다양한 역문제 (Image Restoration, Editing) 에 적용 가능한 강력하고 유연한 도구로, 생성 모델의 제어 가능성 (Controllability) 을 한 단계 발전시켰습니다.

요약하자면, SGPP 는 기하학적 안정성을 보장하면서도 생성적 자유도를 유지하는 "소프트 가이드" 메커니즘을 통해, Rectified Flow 기반 이미지 편집 및 복구의 새로운 표준을 제시합니다.