원저자: Namhoon Kim, Sara Fridovich-Keil

게시일 2026-06-19

📖 4 분 읽기☕ 가벼운 읽기

원저자: Namhoon Kim, Sara Fridovich-Keil

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

개요: "모자이크" vs "마법의 붓"

당신에게 아주 정교하고 세밀한 숲, 도시, 또는 사람의 폐 사진이 있다고 상상해 보세요. 당신은 이 이미지의 품질을 크게 떨어뜨리지 않으면서도 아주 작은 USB 드라이브에 담기 위해 크기를 줄이고 싶습니다. 이를 위해 두 가지 주요 도구를 사용할 수 있습니다.

그리드 (모자이크): 이것은 거대한 체커보드와 같습니다. 이미지를 수백만 개의 작은 사각형으로 나눕니다. 각 사각형에 대해 평균 색상 하나만 적어두는 방식입니다. 이미지를 다시 보고 싶다면, 그 사각형을 보고 색을 채워 넣으면 됩니다. 이는 단순하고 예측 가능하며, 이미지가 단순히 색상과 질감의 혼합(예: 숲이나 의료 스캔 영상)일 때 매우 효과적입니다.
INR (마법의 붓): 이것은 "신경망"입니다. 그리드 대신, "좌표 X, Y, Z 지점의 색상은 정확히 이 색이어야 한다"라고 말해주는 똑똑한 컴퓨터 프로그램(레시피)을 가집니다. 마치 마법의 붓처럼, 아무리 확대하더라도 이론적으로는 어떤 형태든 완벽하게 그려낼 수 있습니다.

이 논문의 핵심 주장:
오랫동안 사람들은 "마법의 붓"(INR)이 더 똑똑하고 유연하기 때문에 미래가 될 것이라고 생각했습니다. 하지만 이 논문은 이 두 모델 사이의 거대한 경주를 실행했습니다. 연구 결과, 밀도가 높은 신호(자연스러운 사진이나 의료 스캔처럼 곳곳에 디테일이 가득한 이미지)의 경우, 단순한 **그리드(모자이크)**가 오히려 더 빠르고, 학습하기 쉬우며, 동일한 메모리를 사용했을 때 마법의 붓보다 더 선명한 이미지를 만들어낸다는 것을 발견했습니다.

경주: 어떻게 테스트했는가?

연구진은 단순히 사진 한 장만 본 것이 아닙니다. 그들은 다양한 유형의 도전 과제가 담긴 "트랙"을 만들었습니다.

부드러운 언덕 (대역 제한 신호): 이 이미지들은 구르는 언덕이나 정적(static noise)처럼 보입니다. 뚜렷한 경계 없이 부드러운 변화(gradient)만 존재합니다.
날카로운 경계 (구체와 프랙탈): 공중에 떠 있는 공이나 프랙탈 패턴(눈송이처럼 무한히 반복되는 형태)처럼 뚜렷한 모양을 가진 이미지들입니다.
실제 세상: 실제 사진(DIV2K 데이터셋), 3D 드래곤 모델, 그리고 인간의 CT 스캔(흉부 X-레이)을 테스트했습니다.

그들은 이 도구들을 사용하는 메모리 양(압축률)을 아주 작은 크기(고압축)부터 아주 큰 크기까지 다양한 "사이즈"로 테스트했습니다.

결과: 누가 승리했는가?

1. "밀도가 높은" 신호의 승자: 그리드

신호가 "밀도가 높을 때"(즉, 노이즈 섞인 숲이나 CT 스캔처럼 모든 곳에 디테일이 있을 때), 그리드가 거의 매번 승리했습니다.

비유: 구름 낀 하늘을 묘사한다고 생각해 보세요. 그리드는 단순히 "왼쪽 상단은 연한 파란색, 오른쪽 하단은 진한 파란색"이라고 말합니다. 이 방식은 완벽하고 즉각적입니다.
마법의 붓(INR)의 고전: INR은 구름을 설명하기 위해 복잡한 수학적 공식을 학습하려고 시도합니다. 이 과정은 훨씬 오래 걸리며, 동일한 "두뇌 용량"(파라미터)을 사용하더라도 종종 깨끗한 이미지 대신 흐릿하거나 물결치는 듯한 아티팩트(이상한 패턴)를 만들어냅니다.
발견된 사실: 이런 종류의 신호에 대해서는 단순한 그리드가 단지 "충분히 좋은" 수준이 아니라, 실제로 더 뛰어나고 더 빠릅니다.

2. "희소한" 신호의 승자: 마법의 붓 (때때로)

마법의 붓이 빛을 발하는 특정 시나리오가 있었습니다. 바로 날카롭고 단순한 형태를 다룰 때입니다.

비유: 흰 배경 위에 검은 원 하나가 그려진 그림을 상상해 보세요.
그리드의 고전: 그리드는 그 원을 근사하기 위해 수천 개의 작은 사각형을 사용해야 합니다. 그리드가 아주 크지 않으면 원의 가장자리가 "계단 모양"(jagged)처럼 보입니다.
마법의 붓의 승리: INR은 완벽한 원의 공식을 학습할 수 있습니다. 아주 적은 파라미터만으로도 매끄럽고 곡선적인 경계를 그려낼 수 있습니다.
발견된 사실: 데이터가 대부분 빈 공간이고 몇몇 날카롭고 단순한 형태(예: 3D 드래곤 모델이나 형태 마스크)로 이루어져 있다면, INR이 그리드보다 더 잘 압축할 수 있습니다.

"대역폭"의 놀라움

논문은 모델이 디테일을 처리하는 방식에 대한 규칙을 발견했는데, 이를 "대역폭(bandwidth)"이라고 부릅니다.

대역폭을 모델이 볼 수 있는 디테일의 "속도 제한"이라고 생각하세요.
그리드의 경우, 메모리를 더 많이 할당할수록 속도 제한이 꾸준히 올라갑니다. 이는 예측 가능하고 직선적인 형태를 띱니다.
INR의 경우에도 속도 제한이 올라가긴 하지만, 벽에 부딪힙니다. 아무리 INR의 크기를 키워도, "노이즈가 많거나" "밀도가 높은" 이미지에서 그리드를 이기기는 어렵습니다. 그리드는 현실 세계의 무질서한 노이즈를 처리하는 데 본질적으로 더 뛰어납니다.

"속도" 요소

그리드: 계산기와 같습니다. 버튼을 누르면 즉시 답을 줍니다. 학습(학습) 속도가 매우 빠릅니다.
INR: 머릿속으로 복잡한 수학 문제를 풀려고 노력하는 학생과 같습니다. 패턴을 파악하는 데 시간이 오래 걸리며, 때로는 막히거나 이상한 실수(아티팩트)를 저지르기도 합니다.
결과: 그리드는 가장 느린 INR 모델보다 종종 10배 더 빠르게 학습되었습니다.

요약: 언제 무엇을 사용해야 하는가?

이 논문은 신호를 압축하거나 표현하려는 모든 사람을 위해 간단한 가이드를 제시하며 마무리합니다.

다음의 경우 "그리드(모자이크)"를 사용하세요: "밀도가 높은" 데이터를 다룰 때입니다. 여기에는 자연스러운 사진, 의료 CT 스캔, 또는 명확하고 단순한 모양 없이 색상과 질감이 뒤섞인 것처럼 보이는 모든 이미지가 포함됩니다. 이는 더 빠르고, 비용이 적게 들며, 더 좋은 결과를 줍니다.
다음의 경우 "INR(마법의 붓)"을 사용하세요: "희소한" 데이터를 다룰 때입니다. 여기에는 3D 물체의 형태, 윤곽선, 또는 신호가 대부분 빈 공간이고 경계가 날카롭고 깨끗한 마스크 등이 포함됩니다.

핵심 결론:
가장 "똑똑한" 도구(신경망)가 항상 최선일 것이라고 가정하지 마세요. 때로는 가장 단순한 도구(그리드)가 가장 강력할 수 있습니다. 특히 우리가 사는 복잡하고 세밀한 현실 세계를 압축하려고 할 때 말입니다.

기술 요약: 그리드는 밀집 신호 압축에서 암시적 신경 표현(INR)보다 종종 더 우수한 성능을 보인다

문제 정의

암시적 신경 표현(Implicit Neural Representations, 이하 INR)은 최근 이미징 및 역문제(inverse problems) 분야에서 높은 지각적 품질과 압축된 메모리 점유율을 제공하며 인상적인 능력을 보여주었다. 그러나 이들의 근본적인 용량(capacity), 암시적 편향(implicit biases), 그리고 스케일링 동작에 대해서는 여전히 이해가 부족하다. 이러한 명확성의 결여는 실무자들이 INR을 배포할 때의 신뢰도를 제한하며, 미래의 신호 표현 개발을 저해한다. 본 연구가 다루는 핵심 문제는 다양한 대역폭과 차원의 신호에 대해 서로 다른 방법들이 용량을 어떻게 할당하는지를 중심으로, 언제 INR이 전통적인 그리드 기반 표현 및 하이브리드 접근 방식에 비해 진정한 이점을 제공하는지 결정하는 것이다.

방법론

저자들은 다양한 2D 및 3D 태스크에 걸쳐 다양한 신호 표현 전략을 비교하는 포괄적인 경험적 연구를 수행하였다. 평가 프레임워크에는 다음이 포함된다:

비교된 표현 방식:

순수 INR: Fourier Feature Networks (FFN), SIREN, WIRE.
하이브리드 모델: GA-Planes, Instant-NGP (다중 해상도 해시 인코딩).
이산/명시적(Discrete/Explicit): Gaussian Splatting (본 연구에서는 2D로 제한).
적응형 대역폭(Adaptive Bandwidth): BACON.
베이스라인: 보간법(2D의 경우 bicubic, 3D의 경우 trilinear)을 사용하는 단순 정규화된 그리드(regularized grid).

데이터셋 및 신호:

합성 신호: 다양한 유효 대역폭(0.1 ~ 0.9)과 구조적 복잡성을 테스트하기 위해 생성되었다. 여기에는 대역 제한 노이즈(Bandlimited noise), 구체(Spheres, 무작위로 배치된 원판/구체), 시에르핀스키 프랙탈(Sierpinski fractals), 그리고 방사형 스타 타겟(radial Star Target)이 포함된다.
실제 세계 신호: DIV2K 고해상도 이미지, 2D CT 스캔(흉부 및 방사선 치료 계획용), 3D Stanford Dragon 모델(볼륨 점유 및 표면 표현 모두 포함).

태스크:
모델은 다음 항목들에 대해 평가되었다:

과적합(Overfitting): $1 \times 10^4$ 에서 $3 \times 10^6$ 사이의 고정된 파라미터 예산을 사용하여 신호에 적합(fitting).
역문제(Inverse Problems): 컴퓨터 단층 촬영(CT) 재구성, 노이즈 제거(denoising), 초해상도(super-resolution, SR).

평가 지표:
성능은 2D 태스크의 경우 PSNR, SSIM, LPIPS를 사용하여 정량화하였고, 3D 태스크의 경우 PSNR 및 IoU를 사용하였다. 계산 효율성을 평가하기 위해 훈련 및 추론 시간도 측정되었다.

주요 기여

정량화된 용량 스케일링: 본 연구는 2D 대역 제한 신호에 대해 대부분의 모델이 모델 크기와 표현 가능한 유효 대역폭 사이에 근사적인 멱법칙(power-law) 관계를 보임을 입증한다.
그리드의 우월성 확인: 저자들은 밀집 신호(특히 대역 제한 노이즈 및 자연 이미지)를 다루는 많은 태스크에서, 단순한 정규화된 그리드가 보간법을 사용할 때 동일한 수의 파라미터를 가진 그 어떤 INR이나 하이브리드 모델보다 빠르게 훈련되며 더 높거나 대등한 품질을 달선함을 보여준다.
INR 이점 영역의 정의: 본 논문은 INR과 하이브리드 모델이 그리드를 능가하는 특정적이고 제한적인 시나리오를 식별한다. 이는 주로 형태 점유 마스크(shape occupancy masks), 물체 표면, 또는 상수 값 영역과 날카로운 경계(예: 3D Dragon 표면 또는 시에르핀스키 프랙탈)를 가진 신호와 같이 저차원 구조를 포함하는 태스크들이다.

결과

밀집 신호 과적합:

대역 제한 신호: 2D 및 3D 대역 제한 신호 모두에서, 단순한 Grid 베이스라인이 모든 모델 크기에 걸쳐 다른 모든 표현 방식보다 일관되게 우수한 성능을 보였다. INR 및 하이브리드 모델은 그리드를 안정적으로 능가하지 못했으며, 이는 이들이 밀집된 노이즈 형태의 신호를 위한 보편적인 해결책이 아님을 시사한다.
자연 이미지: DIV2K 데이터셋에서 Grid 베이스라인은 다른 방법들과 경쟁적이었으며, 과적합 및 초해상도 태스크에서 종종 그 성능을 대등하게 맞추거나 능가하였다.
아티팩트(Artifacts): 서로 다른 파라미터화 방식은 뚜렷한 아티팩트를 유발했다. FFN과 SIREN은 사인파 또는 에일리어싱(aliasing) 형태의 아티팩트를 보였고, WIRE는 3D에서 질감 아티팩트를, Instant-NGP는 작은 스케일에서의 해시 충돌로 인한 노이즈 아티팩트를 나타냈다. GA-Planes는 축 정렬(axis-aligned) 아티팩트를 보였다. Grid 베이스라인은 주로 강한 압축 하에서 super-Nyquist 세부 사항이 흐려지는 현상을 겪었다.

역문제:

CT 및 노이즈 제거: 자연 2D 신호를 포함하는 컴퓨터 단층 촬영 및 노이즈 제거 태스크에서, 총 변동(Total Variation, TV) 정규화를 적용한 단순 Grid가 모든 모델 크기에서 최적에 가까운 성능을 보였으며, 다른 방법들보다 더 빠르게 훈련되고 더 높은 품질을 달성했다.
3D 초해상도: 3D 초해상도 태스크(Stanford Dragon 점유 및 표면)에서, INR(특히 GA-Planes 및 WIRE)과 하이브리드 모델은 가장 작은 모델 크기에서 Grid보다 우수한 성능을 보였다. 이는 INR이 저차원 구조(예: 3D 공간에 임베딩된 2D 표면)를 가진 신호에서 탁월하다는 발견과 일치한다.

계산 효율성:

Grid 모델이 가장 빠른 추론 및 훈련 시간을 제공했다.
순수 INR은 가장 많은 계산 시간을 필요로 했다(일부 경우 다음으로 느린 모델보다 약 10배 더 많은 시간 소요).
하이브리드 및 이산 모델은 그 중간 단계였으나, 순수 INR이 모델 크기에 따라 계산 시간이 증가하는 것과 달리, 이들의 훈련 시간은 일반적으로 모델 크기에 독립적이었다.

의의 및 주장

본 논문은 데이터의 특성과 응용 분야에 따른 신호 표현 선택에 대한 실질적인 가이드를 제공한다고 주장한다.

밀집 신호의 경우: 저자들은 밀집된 자연 신호(CT 스캔 및 자연 이미지와 같은)를 다루는 광범위한 응용 분야에서 단순한 그리드와 보간법을 사용하는 것이 여전히 가장 실용적이고 효과적인 선택이라고 결론짓는다. 이는 단순성, 해석 가능성, 계산 효율성, 그리고 종종 더 우수한 재구성 품질을 제공한다.
구조화된 신호의 경우: INR 및 하이브리드 모델은 물체의 가장자리, 표면 또는 점유 마스크와 같이 단순한 저차원 구조를 가진 신호에 대해 뚜렷한 이점을 제공한다.
향าท 방향: 본 연구는 현재의 INR이 "밀집된" 자연 신호를 효과적으로 압축하려는 목표를 달족하지 못하고 있음을 시사하며, 이는 향후 개발이 일반적인 목적의 그리드 대체재로서가 아니라, INR이 희소하거나 구조화된 도메인에서 성공할 수 있게 하는 특정 구조적 편향을 이해하고 활용하는 데 집중해야 함을 의미한다.

본 연구는 INR의 "무한 해상도" 주장이 모든 영역에서 우수한 성능으로 직결되지는 않는다는 점을 강조하며, 특히 정규 그리드에 적용된 샘플링 이론의 이론적 보증과 비교했을 때 그러하다.

Grids Often Outperform Implicit Neural Representations at Compressing Dense Signals