Each language version is independently generated for its own context, not a direct translation.

듀얼-솔버 (Dual-Solver): 그림을 그리는 AI 의 '스피드런' 비법

이 논문은 최근 화제가 되는 **생성형 AI(이미지 생성 모델)**가 그림을 그릴 때, 훨씬 더 빠르게 고품질의 결과를 낼 수 있게 해주는 새로운 기술을 소개합니다.

이해하기 쉽게 비유를 들어 설명해 드릴게요.

1. 문제: "완벽한 그림을 그리려면 너무 오래 걸려요!"

생성형 AI 는 처음엔 잡음 (노이즈) 같은 투명한 유리창을 보고, 한 번에 한 번씩 "이게 뭐지?"라고 추측하며 그림을 다듬어 나갑니다. 이를 디노이징 (Denoising) 과정이라고 합니다.

기존 방식: AI 가 그림을 완성하려면 이 추측 과정을 매우 많이 (예: 50 번 이상) 반복해야 했습니다. 마치 어두운 방에서 천천히 벽을 더듬어 나가며 그림을 완성하는 것과 비슷합니다.
문제점: 이 과정이 너무 오래 걸려서, 실시간으로 그림을 그리거나 많은 양을 만들 때 비용과 시간이 많이 듭니다.

2. 해결책: "스마트한 길 찾기 (ODE 솔버)"

연구자들은 이 과정을 수학적으로 **미분 방정식 (ODE)**으로 설명할 수 있다는 점을 이용했습니다. 마치 "이제부터 A 지점에서 B 지점으로 갈 때, 어떤 경로가 가장 빠른가?"를 계산하는 것과 같습니다.

기존에도 "빠른 길 찾기" 방법들이 있었지만, 각각의 장단점이 있었습니다. 어떤 방법은 속도는 빠르지만 그림이 뭉개지고, 어떤 방법은 질은 좋지만 너무 느렸습니다.

3. 듀얼-솔버 (Dual-Solver) 의 등장: "모든 길의 장점을 섞은 만능 나침반"

이 논문에서 제안한 듀얼-솔버는 고정된 하나의 방법만 고집하지 않고, 상황에 따라 가장 좋은 방법을 실시간으로 섞어서 사용하는 똑똑한 나침반입니다.

세 가지 핵심 비법이 있습니다:

① 예측의 종류를 섞기 (Dual Prediction)

AI 는 그림을 그릴 때 "소음 (노이즈) 을 제거할까?", "원래 데이터를 복원할까?", "속도 벡터를 계산할까?" 등 여러 가지 방식으로 추측합니다.

비유: 요리할 때 "소금만 넣을까?", "설탕만 넣을까?" 고민하는 대신, 맛을 보고 소금과 설탕의 비율을 실시간으로 조절하는 것과 같습니다. 듀얼-솔버는 이 비율을 자동으로 찾아내어 가장 맛있는 (가장 좋은) 그림을 만듭니다.

② 시간의 흐름을 다르게 보기 (Integration Domain)

그림을 그리는 시간을 '선형 (직선)'으로 보느냐, '로그 (지수)' 형태로 보느냐에 따라 결과가 다릅니다.

비유: 시계를 볼 때, 초침이 똑딱똑딱 똑같은 속도로 가는지 (선형), 아니면 **초반엔 느리고 후반엔 빨라지는지 (로그)**에 따라 이동 거리가 달라집니다. 듀얼-솔버는 이 시계의 바늘이 어떻게 움직여야 가장 효율적으로 그림을 완성할지 스스로 결정합니다.

③ 작은 오차 보정 (Residual Adjustment)

수학적으로 완벽하게 계산하기 어려운 아주 작은 오차들이 있습니다.

비유: 길을 가다가 작은 돌부리에 걸려 넘어질 뻔했을 때, 발끝으로 살짝 밀어서 균형을 잡는 것과 같습니다. 듀얼-솔버는 이 미세한 균형을 잡는 파라미터를 학습해서, 그림이 뭉개지지 않도록 정확도를 높입니다.

4. 학습 방법: "정답지 없이도 배우는 천재"

보통 이런 기술을 개발하려면, "완벽한 그림 (고해상도)"을 먼저 만들어두고, 그걸 보고 "어떻게 빨리 그릴지"를 가르쳐야 합니다. 하지만 이 방법은 시간이 너무 오래 걸립니다.

듀얼-솔버의 혁신: 정답 그림을 만들 필요 없이, **이미지 분류기 (이미지가 무엇인지 아는 AI)**를 이용합니다.
비유: 그림을 그리는 AI 가 "이 그림이 '고양이'인지 '개'인지"를 맞출 수 있도록 훈련시키는 것입니다.
- "내 그림이 고양이처럼 보이게 하려면, 이 길 (파라미터) 로 가야 해!"
- "개처럼 보이면, 저 길로 가야 해!"
- 이렇게 분류기 (클래식파이어) 가 "맞았다/틀렸다"라고만 알려주면, 그림을 그리는 AI 는 스스로 가장 빠른 길을 찾아냅니다. 정답 그림을 1 장도 만들지 않아도 됩니다!

5. 결과: "3 번의 추측으로 완성된 명화"

기존 방법들은 좋은 그림을 그리려면 보통 10 번 이상의 추측 (NFE) 이 필요했습니다. 하지만 듀얼-솔버는 3 번에서 9 번 사이의 아주 적은 추측만으로도 기존 방법들보다 훨씬 더 선명하고 아름다운 그림을 만들어냈습니다.

실제 성과: 이미지 생성 모델 (DiT, SANA 등) 에서 테스트했을 때, **화질 (FID 점수)**과 **텍스트와 그림의 일치도 (CLIP 점수)**가 기존 최고 기술들보다 훨씬 뛰어났습니다.

요약

듀얼-솔버는 "그림을 그리는 AI"에게 고정된 규칙 대신, 상황에 맞춰 유연하게 사고하는 능력을 부여했습니다. 마치 운전자가 고정된 길만 가는 게 아니라, 실시간으로 교통 상황과 목적지를 보고 가장 빠른 우회로를 스스로 찾아내어 목적지에 빠르게 도착하는 것과 같습니다.

이 기술 덕분에 앞으로 AI 가 그림을 그릴 때 시간과 비용은 줄이고, 화질은 더 높일 수 있게 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

Dual-Solver: 이중 예측을 통한 확산 모델용 일반화된 ODE 솔버 (Dual-Solver: A Generalized ODE Solver for Diffusion Models with Dual Prediction)

이 논문은 ICLR 2026에 게재된 것으로, 확산 모델 (Diffusion Models) 의 추론 비용 (Function Evaluations, NFE) 을 줄이면서도 고품질의 이미지를 생성하기 위한 새로운 솔버인 Dual-Solver를 제안합니다.

1. 문제 정의 (Problem)

확산 모델은 현재 가장 뛰어난 이미지 생성 품질을 보여주지만, 추론 시 많은 수의 함수 평가 (NFE) 가 필요하여 계산 비용이 높다는 단점이 있습니다. 이를 해결하기 위해 기존에는 ODE(상미분 방정식) 수치 해법 (예: Runge-Kutta, Adams-Bashforth) 이나 확산 모델 전용 솔버 (DPM-Solver 등) 가 사용되었습니다. 그러나 기존 방법들은 다음과 같은 한계가 있었습니다:

예측 유형 (Prediction Type) 의 고정: 노이즈 예측, 데이터 예측, 속도 예측 등 특정 예측 유형에 국한되어 최적의 업데이트를 수행하지 못할 수 있음.
적분 영역 (Integration Domain) 의 제한: 로그 (logarithmic) 또는 선형 (linear) 영역 중 하나로 고정되어 있어 다양한 시나리오에 유연하게 대응하지 못함.
학습 비용: 기존 학습 기반 솔버들은 고해상도 NFE 로 생성된 '교사 (Teacher)' 샘플이나 궤적이 필요하여 학습 준비 비용이 매우 큼.

2. 방법론 (Methodology)

Dual-Solver 는 다단계 샘플러를 일반화하고, 학습 가능한 파라미터를 통해 다음과 같은 세 가지 요소를 동적으로 제어합니다.

2.1. 이중 예측 (Dual Prediction) 및 파라미터 $\gamma$

기존의 단일 예측 방식 (노이즈, 데이터, 속도 중 하나) 대신, 노이즈 ( $\epsilon_\theta$ ) 와 데이터 ( $x_\theta$ ) 예측을 동시에 활용하는 통합 적분 공식을 도입했습니다.

$\gamma$ 파라미터: 이 파라미터는 노이즈 예측 ( $\gamma=-1$ ), 속도 예측 ( $\gamma=0$ ), 데이터 예측 ( $\gamma=1$ ) 사이의 연속적인 보간 (interpolation) 을 가능하게 합니다. 이를 통해 모델이 각 단계에서 가장 적합한 예측 유형을 학습할 수 있습니다.

2.2. 로그 - 선형 도메인 변환 (Log-Linear Domain Change) 및 파라미터 $\tau$

적분 영역을 변환하여 수치적 안정성과 정확도를 높입니다.

$\tau$ 파라미터: 선형 변환 ( $L(y)=y$ ) 과 로그 변환 ( $L(y)=\log y$ ) 사이의 보간을 수행하는 로그 - 선형 변환 함수를 정의합니다. 이는 $y$ 가 0 에 가까울 때 로그 함수의 발산 문제를 해결하고 (log1p 의 안정성), 다양한 시나리오에 맞는 최적의 가중치를 학습하게 합니다.

2.3. 잔차 조정 (Residual Adjustment) 및 파라미터 $\kappa$

2 차 국소 정확도 (Second-order local accuracy) 를 유지하면서 잔차 항 (residual term) 을 조정하는 파라미터 $\kappa$ 를 도입했습니다. 이는 예측 오차를 보정하여 더 정밀한 샘플링을 가능하게 합니다.

2.4. 분류 기반 학습 전략 (Classification-based Learning)

기존의 회귀 (Regression) 기반 학습 (고 NFE 샘플을 타겟으로 함) 대신, 클래스 분류 (Classification) 기반 학습을 제안했습니다.

하드 라벨 분류 (Hard-label Classification): 생성된 샘플을 고정된 사전 학습된 분류기 (예: MobileNet, CLIP) 에 입력하여, 생성된 이미지가 주어진 클래스 레이블 (또는 텍스트 프롬프트) 을 올바르게 분류하는지 확인합니다.
손실 함수: 생성된 샘플의 분류 확률과 실제 클래스 레이블 간의 교차 엔트로피 (Cross-Entropy) 를 최소화합니다.
장점: 고 NFE 의 '정답' 샘플이 필요 없으므로 학습 준비 비용이 크게 절감되며, 저 NFE 환경에서도 더 강력한 성능을 발휘합니다.

3. 주요 기여 (Key Contributions)

일반화된 솔버 아키텍처: 예측 유형, 적분 도메인, 잔차 항을 학습 가능한 파라미터 ( $\gamma, \tau, \kappa$ ) 로 통합하여, 다양한 백본 (Diffusion 및 Flow Matching) 에 적용 가능한 범용 솔버를 제안했습니다.
효율적인 학습 방법론: 고비용의 교사 모델 (Teacher Solver) 없이도 사전 학습된 분류기를 활용한 하드 라벨 분류 학습을 통해 솔버 파라미터를 최적화하는 새로운 방식을 제시했습니다.
예측 - 교정 (Predictor-Corrector) 구조 유지: 2 차 국소 정확도를 유지하면서, 1 차 예측기와 2 차 교정기를 결합한 구조를 통해 안정성을 확보했습니다.

4. 실험 결과 (Results)

논문은 ImageNet 조건부 생성 (DiT, GM-DiT) 과 텍스트 - 이미지 생성 (SANA, PixArt- $\alpha$ ) 작업에서 Dual-Solver 를 기존 솔버 (DDIM, DPM-Solver++, BNS-Solver, DS-Solver) 와 비교했습니다.

저 NFE 환경에서의 우위: NFE 가 3 에서 9 사이인 저비용 영역에서 Dual-Solver 는 모든 백본에서 FID (Fréchet Inception Distance) 와 CLIP 점수 측면에서 기존 최첨단 솔버들을 압도적으로 능가했습니다.
- 예: DiT 모델에서 NFE=5 일 때, Dual-Solver 는 FID 3.52 를 기록하여 기존 솔버들 (DPM-Solver++: 22.19, BNS-Solver: 14.53 등) 보다 월등히 좋은 성능을 보였습니다.
학습 방법 비교: 회귀 기반 학습 (Sample/Trajectory/Feature Regression) 보다 분류 기반 학습 (특히 하드 라벨) 이 저 NFE 영역에서 훨씬 우수한 성능을 보였습니다.
파라미터 보간성: 학습된 파라미터는 서로 다른 NFE 간에도 유사한 형태를 유지하므로, 학습된 파라미터를 인접한 NFE 간에 보간하여 사용하더라도 성능 저하가 크지 않았습니다.

5. 의의 및 결론 (Significance)

Dual-Solver 는 확산 모델의 추론 속도를 획기적으로 개선하면서도 생성 품질을 유지하는 데 성공했습니다. 특히 학습 가능한 파라미터를 통해 솔버의 동작을 유연하게 제어하고, 고비용의 교사 데이터 없이도 효율적으로 학습할 수 있는 방법을 제시했다는 점에서 중요한 의의가 있습니다. 이는 실시간 생성이 필요한 애플리케이션이나 제한된 컴퓨팅 자원을 가진 환경에서 확산 모델의 실용성을 크게 높일 것으로 기대됩니다.

한계점으로는 무조건부 (Unconditional) 백본에 대한 분석이 부족하고, 2 차 정확도 이상의 고차 정확도 분석이 이루어지지 않았다는 점이 언급되었으며, 이는 향후 과제로 남겼습니다.

Dual-Solver: A Generalized ODE Solver for Diffusion Models with Dual Prediction

듀얼-솔버 (Dual-Solver): 그림을 그리는 AI 의 '스피드런' 비법

1. 문제: "완벽한 그림을 그리려면 너무 오래 걸려요!"

2. 해결책: "스마트한 길 찾기 (ODE 솔버)"

3. 듀얼-솔버 (Dual-Solver) 의 등장: "모든 길의 장점을 섞은 만능 나침반"

① 예측의 종류를 섞기 (Dual Prediction)

② 시간의 흐름을 다르게 보기 (Integration Domain)

③ 작은 오차 보정 (Residual Adjustment)

4. 학습 방법: "정답지 없이도 배우는 천재"

5. 결과: "3 번의 추측으로 완성된 명화"

요약

Dual-Solver: 이중 예측을 통한 확산 모델용 일반화된 ODE 솔버 (Dual-Solver: A Generalized ODE Solver for Diffusion Models with Dual Prediction)

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

2.1. 이중 예측 (Dual Prediction) 및 파라미터 γ\gammaγ

2.2. 로그 - 선형 도메인 변환 (Log-Linear Domain Change) 및 파라미터 τ\tauτ

2.3. 잔차 조정 (Residual Adjustment) 및 파라미터 κ\kappaκ

2.4. 분류 기반 학습 전략 (Classification-based Learning)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

DyMRL: Dynamic Multispace Representation Learning for Multimodal Event Forecasting in Knowledge Graph

How unconstrained machine-learning models learn physical symmetries

Experiential Reflective Learning for Self-Improving LLM Agents

Learning Mesh-Free Discrete Differential Operators with Self-Supervised Graph Neural Networks

Physics-Informed Neural Network Digital Twin for Dynamic Tray-Wise Modeling of Distillation Columns under Transient Operating Conditions

2.1. 이중 예측 (Dual Prediction) 및 파라미터 $\gamma$

2.2. 로그 - 선형 도메인 변환 (Log-Linear Domain Change) 및 파라미터 $\tau$

2.3. 잔차 조정 (Residual Adjustment) 및 파라미터 $\kappa$