Single Image Super-Resolution via Bivariate `A Trous Wavelet Diffusion

이 논문은 저해상도 이미지의 고주파 성분과 공간 해상도를 모두 보존하면서 스케일 간 의존성을 모델링하여 아티팩트를 줄이고 구조적 일관성을 향상시키는 비지도 학습 기반의 'BATDiff'라는 새로운 초해상도 모델을 제안합니다.

Heidari Maryam, Anantrasirichai Nantheera, Achim Alin

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제점: "상상력이 너무 과해서 엉뚱한 게 튀어나온다"

기존의 AI 는 사진을 크게 만들 때 두 가지 큰 고민이 있었습니다.

  • 과도한 보정 (너무 매끄러움): 사진이 흐릿할 때, AI 가 "아마 이 부분은 평평한 벽이겠지"라고 생각해서 모든 디테일을 지워버립니다. 결과물은 깨끗하지만, 실제 사진처럼 생생하지 않고 뭉개진 느낌이 듭니다.
  • 할루시네이션 (엉뚱한 상상): 반대로, AI 가 "이건 고양이 눈이겠지!"라고 너무 열심히 상상해서, 원래 사진에 없던 털이나 눈동자를 만들어내기도 합니다. 이는 마치 실제 존재하지 않는 장소를 여행 가이드가 너무 생생하게 묘사하는 것과 같습니다.

특히 최근 인기 있는 '확산 모델 (Diffusion Model)'이라는 AI 는 그림을 그릴 때 점진적으로 노이즈를 제거하며 그림을 완성하는데, 이 과정에서 **작은 디테일 (고주파수 성분)**을 만들 때 큰 그림 (저주파수 성분) 과 연결성을 잃어버리는 경우가 많았습니다.

2. BATDiff 의 해결책: "층층이 쌓은 퍼즐과 부모 - 자녀 관계"

BATDiff 는 이 문제를 해결하기 위해 두 가지 핵심 아이디어를 섞었습니다.

① '아 트루 (à trous)' 웨이블릿: "모래알을 체로 거르는 과정"

일반적인 방법은 사진을 한 번에 크게 늘리는 것이지만, BATDiff 는 웨이블릿 변환이라는 기술을 사용합니다.

  • 비유: imagine 하세요. 거대한 모래성 (고해상도 사진) 을 만들 때, 먼저 큰 돌멩이 (큰 구조) 를 쌓고, 그 위에 작은 자갈 (중간 디테일), 그 위에 모래 (미세한 질감) 를 얹는다고 생각해보세요.
  • BATDiff 는 사진을 크기별로 층층이 분리합니다. 가장 아래층은 전체적인 모양 (코어) 이고, 위로 올라갈수록 점점 더 미세한 디테일이 추가됩니다. 중요한 건, 모든 층이 원래 사진의 위치와 정확히 일치한다는 점입니다. (이걸 '비감쇠'라고 합니다.)

② 이변량 (Bivariate) 확산: "자녀는 부모의 지도를 따른다"

이게 이 기술의 핵심입니다. 기존 AI 는 각 층을 따로따로 그렸다면, BATDiff 는 층과 층 사이의 '부모 - 자녀' 관계를 연결합니다.

  • 비유: 그림을 그릴 때, **큰 그림 (부모)**을 먼저 그리고, 그 위에 **작은 디테일 (자녀)**을 그립니다. BATDiff 는 "자녀 (작은 디테일) 가 그릴 때, 부모 (큰 구조) 가 지금 어떤 상태인지 항상 보고 있어야 한다"고 말합니다.
  • 예를 들어, '코'라는 큰 구조 (부모) 가 오른쪽으로 기울어져 있다면, '코의 주름'이라는 작은 디테일 (자녀) 도 그 기울어진 방향을 따라 그려져야 합니다. 이렇게 하면 디테일이 큰 구조와 어긋나지 않고 자연스럽게 연결됩니다.

3. 작동 원리: "실제 사진과 계속 대조하며 수정하기"

BATDiff 는 단순히 AI 가 상상하는 것만 믿지 않습니다.

  • 비유: 요리사가 요리를 할 때, **손님 (원본 저해상도 사진)**이 "이건 소금기가 좀 적어"라고 말하면, 요리사는 그 말에 맞춰 맛을 보정합니다.
  • BATDiff 는 그림을 그리는 과정 (역방향 확산) 에서 매번 **"내가 그린 그림이 원본 저해상도 사진과 일치하는가?"**를 체크합니다. 일치하지 않으면 즉시 수정합니다. 이렇게 하면 AI 가 엉뚱한 것을 상상해 내는 것을 막아줍니다.

4. 요약: 왜 이 기술이 특별한가?

  1. 단일 이미지 학습: 다른 사진들 (학습 데이터) 을 많이 볼 필요 없이, 단 한 장의 흐릿한 사진만으로도 그 사진의 특징을 분석해 선명하게 만듭니다. (외부 데이터에 의존하지 않음)
  2. 구조적 일관성: 큰 구조와 작은 디테일이 서로 어긋나지 않아, 선명하면서도 자연스러운 사진을 만들어냅니다.
  3. 결과: 기존 방법들보다 더 선명한 경계선, 더 자연스러운 질감, 그리고 거짓된 디테일 (할루시네이션) 이 적은 사진을 보여줍니다.

한 줄 요약:
BATDiff 는 흐릿한 사진을 크게 만들 때, 큰 구조를 먼저 잡고 그 위에 작은 디테일을 부모의 지도를 따라 자연스럽게 얹으며, 동시에 원본 사진과 계속 대조해 엉뚱한 상상을 막아주는 똑똑한 AI입니다.