Efficient Degradation-agnostic Image Restoration via Channel-Wise Functional Decomposition and Manifold Regularization

Each language version is independently generated for its own context, not a direct translation.

1. MIRAGE 가 무엇인가요? (핵심 비유)

상상해 보세요. 사진이 더러워진 이유는 다양합니다.

비/눈: 국소적인 얼룩 (작은 점)
안개/어두운 환경: 전체적인 흐림 (전체적인 분위기)
초점 흐림: 구조적인 왜곡

기존 모델들은 이 모든 것을 처리하기 위해 거대한 두뇌를 사용하거나, 상황에 따라 다른 두뇌를 갈아 끼우는 방식이었습니다. 하지만 MIRAGE 는 **"하나의 팀"**을 구성해서 이 모든 일을 처리합니다.

2. MIRAGE 의 두 가지 비밀 무기

① "역할 분담" (채널별 기능 분해)

이 기술의 첫 번째 비결은 팀워크입니다. MIRAGE 는 이미지 데이터를 처리할 때, 모든 데이터를 똑같이 처리하지 않습니다. 대신 데이터를 세 가지 팀으로 나누어 각 팀이 가장 잘하는 일을 맡깁니다.

CNN 팀 (국소 전문가): 작은 점, 질감, 세부적인 얼룩 (비, 눈) 을 처리합니다. 마치 세부적인 그림을 그리는 화가처럼요.
Attention 팀 (전체 전문가): 이미지 전체의 분위기, 멀리 떨어진 부분의 연결고리 (안개, 어두운 환경) 를 파악합니다. 마치 전체 구도를 보는 건축가처럼요.
MLP 팀 (통계 전문가): 색감이나 채널 간의 관계를 분석합니다. 마치 데이터를 분석하는 통계학자처럼요.

비유: 예전에는 모든 일을 한 명의 '슈퍼맨'이 다 하려고 했거나, 세 명의 전문가를 따로 불러서 비싼 비용을 치렀습니다. MIRAGE 는 이 세 전문가를 하나의 팀으로 묶어서, 각자가 가장 잘하는 일만 맡게 함으로써 비용은 줄이고 효율은 극대화했습니다.

② "깊이 있는 교감" (다양한 층의 정렬)

두 번째 비결은 모델의 깊이를 이해하는 것입니다.

얕은 층 (Shallow): 사진의 표면적인 결함 (노이즈, 얼룩) 을 잘 봅니다.
깊은 층 (Latent): 사진의 의미와 구조를 잘 이해합니다.

기존 기술들은 이 두 층을 따로따로 처리하거나, 단순히 숫자만 비교했습니다. 하지만 MIRAGE 는 이 두 층이 서로 대화하도록 만듭니다.

비유: 얕은 층은 "여기 비가 떨어졌네!"라고 외치고, 깊은 층은 "아, 그래서 나무가 흔들리는구나"라고 이해합니다. MIRAGE 는 이 두 층이 서로 다른 관점에서도 같은 진실을 공유하도록 훈련시킵니다.
SPD(대칭 양정부호) 공간: 이 대화는 평범한 숫자 비교가 아니라, 복잡한 기하학적 구조를 가진 특별한 공간에서 이루어집니다. 마치 평면 지도에서 두 도시의 거리를 재는 게 아니라, 지구본 (구면) 위에서 가장 정확한 경로를 찾아서 연결하는 것과 같습니다. 이렇게 하면 어떤 종류의 더러움이든 모델이 더 똑똑하게 적응할 수 있습니다.

3. 왜 MIRAGE 가 특별한가요?

작지만 강력함: 기존에 모든 일을 하던 거대 모델 (PromptIR 등) 은 3600 만 개의 파라미터 (두뇌 세포) 를 썼지만, MIRAGE 는 600 만 개만 사용합니다. 5 배나 가볍습니다.
효율성: 컴퓨터 성능이 낮은 스마트폰이나 드론에서도 빠르게 작동할 수 있습니다.
범용성: 훈련할 때 보지 못했던 '수중 사진'이나 '심한 악천후' 같은 새로운 상황에서도 잘 작동합니다. 마치 비 오는 날, 눈 오는 날, 안개 낀 날을 다 경험한 운전사가 갑자기 모래사장을 만나도 잘 운전하는 것과 같습니다.

4. 결론: 미라지 (Mirage) 의 의미

제목인 '미라지 (Mirage)'는 사막에서 물이 있는 것처럼 보이는 환상을 뜻합니다. 하지만 이 기술은 그 반대로, 이미지의 왜곡이라는 환상 뒤에 숨겨진 진짜 모습 (깨끗한 이미지) 을 찾아내는 기술입니다.

한 줄 요약:

"MIRAGE 는 거대한 두뇌 없이도, 세 명의 전문가가 팀을 이뤄 각자 잘하는 일만 맡고 서로 깊이 대화함으로써, 어떤 더러운 사진이든 가볍고 빠르게 깨끗하게 만드는 똑똑한 이미지 복원 기술입니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

이미지 복원 (Image Restoration, IR) 은 노이즈, 흐림, 안개, 비, 저조도 등 다양한 실제 세계의 열화 (degradation) 로부터 깨끗한 이미지를 복원하는 것을 목표로 합니다. 최근 연구는 단일 모델로 다양한 열화를 처리하는 무분해성 (Degradation-Agnostic) 이미지 복원에 집중하고 있습니다. 그러나 기존 방법들은 다음과 같은 효율성과 성능 간의 딜레마에 직면해 있습니다.

효율성 vs. 성능: 프롬프트 (prompt) 나 대규모 vision-language 모델을 사용하는 방법은 다양성이 뛰어나지만 계산 비용이 매우 큽니다. 반면, 경량화 모델은 효율적이지만 복원 품질이 떨어집니다.
표현적 요구 사항의 차이: 열화 유형마다 필요한 표현 방식이 다릅니다 (예: 노이즈/비는 국소적 텍스처, 안개/저조도는 전역적 컨텍스트, 블러는 다중 스케일 구조).
채널 중복성 (Channel Redundancy): 기존 Attention 기반 모델들은 채널 차원에서 상당한 정보 중복성을 보이지만, 이를 활용하지 못하고 버리거나 비효율적으로 사용합니다.

따라서, 효율성을 희생하지 않으면서도 다양한 열화에 강건한 (Robust) 단일 모델을 개발하는 것이 핵심 과제입니다.

2. 제안 방법론: MIRAGE

저자들은 두 가지 핵심 혁신을 통해 MIRAGE 를 설계했습니다.

2.1 채널별 기능 분해 (Channel-Wise Functional Decomposition)

Attention 메커니즘의 채널 차원에서 발견된 **중복성 (Redundancy)**을 활용하여, 채널을 세 가지 특수한 분기로 나누고 각각을 다른 인덕티브 바이어스 (inductive bias) 에 할당하는 방식입니다.

구조: 입력 특징 맵을 채널 차원에서 세 부분으로 분할합니다.
1. Convolution Branch: 국소적 텍스처 (Local Textures) 처리에 특화 (CNN).
2. Attention Branch: 전역적 컨텍스트 (Global Context) 및 장기 의존성 처리에 특화.
3. MLP Branch: 채널 통계 (Channel Statistics) 및 비선형성 변환에 특화.
상호 융합 (Inter-Branch Mutual Fusion): 각 분기에서 처리된 특징을 게이트 메커니즘 (Gating) 을 통해 서로 융합하여, 분기 간 상호작용을 강화합니다. 이는 FFN(Feed-Forward Network) 직전 단계에서 수행됩니다.
효과: 기존 순수 Attention 기반 모델의 중복된 채널 용량을 재할당하여, 모델 크기를 줄이면서도 표현력을 극대화합니다.

2.2 다양체 정규화 (Manifold Regularization via SPD Alignment)

모델의 깊은 층 (Latent features) 과 얕은 층 (Shallow features) 간의 일관성을 강화하기 위해 대칭 양정치 (SPD, Symmetric Positive Definite) 다양체 공간에서의 대비 학습 (Contrastive Learning) 을 도입했습니다.

얕음 - 잠재 (Shallow-Latent) 대비 쌍: 얕은 층은 세부적인 공간 정보와 노이즈에 민감하고, 깊은 층은 추상적이고 의미론적으로 안정적입니다. 이 두 가지는 본질적으로 대비되는 쌍을 이룹니다.
SPD 공간 정렬: 기존 유클리드 공간의 대비 학습은 구조화된 표현 (covariance matrix) 을 비교할 때 유사성을 왜곡할 수 있습니다. MIRAGE 는 특징의 **2 차 통계량 (공분산 행렬)**을 계산하여 SPD 다양체 공간에서 정렬합니다.
- 공분산 행렬 $C = \frac{1}{N-1}(X-\mu)(X-\mu)^\top + \epsilon I$ 를 계산합니다.
- 이를 벡터화하고 MLP 로 투영한 후 InfoNCE 손실 함수를 적용하여 얕은 층과 깊은 층의 2 차 통계적 구조를 정렬합니다.
효과: 다양한 열화 유형에 걸쳐 특징의 일관성을 높이고 일반화 성능을 향상시키며, 추론 시 추가 비용이 없습니다.

3. 주요 기여 (Key Contributions)

원칙적인 채널 분해 전략: CNN, Attention, MLP 를 각각 국소적, 전역적, 채널 통계적 역할에 명시적으로 할당하여 효율적이고 효과적인 무분해성 복원을 가능하게 함.
SPD 다양체 기반 정규화: 유클리드 공간이 아닌 SPD 다양체 공간에서 얕은 층과 깊은 층의 특징을 정렬하여, 구조적 유사성을 더 정확하게 보존하고 다양한 열화에 대한 일반화 능력을 향상시킴.
SOTA 성능과 효율성: 단일 모델로 다양한 열화 (단일, 혼합, 미시적) 설정에서 최첨단 (SOTA) 성능을 달성하면서도, 파라미터 수와 계산량 (FLOPs) 을 기존 방법 대비 획기적으로 줄임.

4. 실험 결과 (Results)

저자들은 5 가지 주요 설정 (3 열화, 5 열화, 혼합 열화, 악천후 제거, 제로샷) 에서 광범위한 실험을 수행했습니다.

3 열화 및 5 열화 설정:
- **MIRAGE-T (6M 파라미터)**는 36M 파라미터의 PromptIR 보다 평균 0.71dB 높은 PSNR 을 기록했습니다.
- **MIRAGE-S (10M 파라미터)**는 25M 파라미터의 MoCE-IR 보다 60% 적은 파라미터로 더 높은 성능을 보였습니다.
- 5 열화 (Dehazing, Deraining, Denoising, Deblurring, Low-light) 설정에서도 모든 메트릭에서 SOTA 를 달성했습니다.
혼합 열화 (Composited Degradation):
- CDD11 데이터셋 (단일, 이중, 삼중 열화) 에서 OneRestore 및 MoCE-IR 보다 우수한 성능을 보였습니다. 특히 복잡한 혼합 열화 환경에서 구조적 일관성을 잘 유지했습니다.
악천후 제거 (Adverse Weather Removal):
- 눈, 비, 안개 제거 작업에서 Histoformer 및 MPerceiver 보다 높은 PSNR 을 기록했습니다.
제로샷 일반화 (Zero-Shot Generalization):
- 수중 이미지 향상: 훈련 데이터에 수중 이미지가 포함되지 않았음에도, UIEB 데이터셋에서 MoCE-IR 보다 +1.38dB 높은 PSNR 을 기록하며 뛰어난 제로샷 성능을 입증했습니다.
- 실제 카메라 데이터: TOLED/POLED (Under-display camera) 데이터셋에서도 기존 방법들을 능가하는 성능을 보였습니다.
효율성:
- MIRAGE-T 는 6.21M 파라미터, 16G FLOPs 로, PromptIR (36M, 132G) 대비 약 8 배 적은 계산량으로 더 좋은 성능을 냈습니다.

5. 의의 및 결론 (Significance & Conclusion)

효율성과 성능의 균형 달성: MIRAGE 는 거대한 모델이나 복잡한 프롬프트 학습 없이도, 기존 모델들의 중복된 용량을 재구성하고 기하학적 구조 (SPD) 를 활용함으로써 효율성과 성능을 동시에 잡았습니다.
구조적 통찰: Attention 모델의 채널 중복성을 단순히 제거하는 것이 아니라, CNN/Attention/MLP 로 재분배하여 각 열화 유형에 최적화된 인덕티브 바이어스를 활용한다는 점이 핵심 통찰입니다.
실용성: 경량화된 설계 덕분에 모바일, 드론, 임베디드 시스템 등 리소스가 제한된 환경에서도 고품질 이미지 복원을 가능하게 하여, 의료 영상, 원격 감지, 자율 주행 등 다양한 분야에 적용 가능성이 큽니다.
미래 작업: 현재 모델은 블러 (Deblurring) 성능에서 일부 대형 모델보다 약간 뒤처지므로, 모델 스케일링과 SPD 다양체의 기하학적 구조를 더 깊이 활용하는 지오데식 (geodesic) 기반 대비 학습 등을 향후 과제로 제시했습니다.

요약하자면, MIRAGE는 이미지 복원 분야에서 "하나의 모델로 모든 것을" 달성하면서도 "효율성"을 포기하지 않는 새로운 패러다임을 제시한 획기적인 연구입니다.