Content-Aware Mamba for Learned Image Compression

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"이미지를 압축할 때, 내용 (콘텐츠) 을 먼저 보고 순서를 바꿔서 더 잘 압축하는 새로운 방법"**을 제안합니다.

기존의 최신 기술 (Mamba) 이 가진 한계를 극복하고, 훨씬 더 선명한 화질로 더 작은 파일 크기를 만드는 **'CAM (Content-Aware Mamba)'**이라는 기술을 소개한 연구입니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.

📦 1. 문제점: "무작위 나열"의 비효율

이미지 압축은 그림 속의 **중복된 정보 (예: 하늘의 파란색, 풀밭의 초록색)**를 찾아내어 없애는 과정입니다.

기존 방식 (Mamba):
imagine you have a huge pile of mixed Lego bricks (red, blue, green).
기존 기술은 이 레고 조각들을 가장자리에서부터 순서대로 (왼쪽→오른쪽, 위→아래) 일렬로 늘어놓아서 처리합니다.
- 문제: 멀리 떨어진 곳에 있는 '빨간색 레고'와 '빨간색 레고'가 서로 다른 줄에 섞여 있으면, 컴퓨터는 "아, 이건 같은 색이구나"라고 바로 알아채지 못합니다. 서로 다른 줄에 섞여 있으니까요.
- 결과: 중복된 정보를 찾아내지 못해 파일 크기가 불필요하게 커집니다.

🚀 2. 해결책: "내용에 맞는 재배열" (CAM)

이 논문은 **"순서대로 나열하는 게 아니라, 내용 (색깔/모양) 이 비슷한 것끼리 먼저 모아서 나열하자"**고 제안합니다. 이를 **CAM (Content-Aware Mamba)**이라고 부릅니다.

🧩 비유 1: "서점의 책 정리법"

기존 방식: 서점에 들어온 책을 도착한 순서대로 진열합니다. (역사책, 만화책, 요리책, 다시 역사책...)
- 독자가 "역사책"을 찾으려면 책장을 다 뒤져야 합니다.
CAM 방식: 책을 장르 (내용) 별로 분류해서 진열합니다. (역사책 모음, 만화책 모음, 요리책 모음...)
- 이제 독자는 "역사책" 구역만 보면 되므로 훨씬 빠르고 효율적입니다.
- 논문에서: 이미지 속 '하늘' 부분과 '하늘' 부분을 멀리 떨어져 있더라도, 내용이 비슷하면 서로 붙여서 처리합니다. 이렇게 하면 중복 정보를 훨씬 쉽게 찾아내어 삭제할 수 있습니다.

🔮 비유 2: "전체 지도를 보는 나침반"

기존 방식: 한 걸음 한 걸음 걸어가면서 앞으로 보이는 것만 보고 결정합니다. (과거만 보고 미래를 모름)
- "지금 이 나무는 뭐지?"라고 생각할 때, "아, 저기 저쪽에도 같은 나무가 있구나"라는 걸 알 수 없습니다.
CAM 방식: 걸을 때마다 **전체 지도 (글로벌 정보)**를 한눈에 봅니다.
- "지금 이 나무는 전체 그림에서 어디에 속하는지"를 미리 알고 처리합니다.
- 논문에서: 이미지 전체의 통계 정보를 '프롬프트 (명령어)'로 만들어서, 처리하는 순간마다 "이 부분은 전체적으로 이런 특징이 있어"라고 알려줍니다. 그래서 앞뒤 순서에 구애받지 않고 더 똑똑하게 압축합니다.

🏆 3. 결과: 얼마나 좋아졌나요?

이 새로운 방법 (CMIC) 을 적용한 결과는 놀랍습니다.

압축 효율: 같은 화질로 저장할 때, 기존 최고 기술 (VTM-21.0) 보다 파일 크기를 15~21% 더 줄였습니다.
- 비유: 100 장의 사진을 담는 가방이었는데, 이 기술을 쓰면 20 장 정도 덜 넣어도 같은 화질이 나옵니다.
속도: 더 똑똑해졌다고 해서 느려진 게 아닙니다. 오히려 기존 Mamba 방식보다 더 빠르고 가볍습니다.
- 비유: 더 많은 일을 처리하면서도, 오히려 에너지 (컴퓨터 자원) 를 덜 씁니다.

💡 4. 요약: 왜 이 논문이 중요한가요?

기존의 AI 는 "이미지를 왼쪽에서 오른쪽으로 읽는 것"에 익숙했습니다. 하지만 이 논문은 **"이미지의 내용을 먼저 파악하고, 비슷한 것끼리 뭉쳐서 처리하라"**고 가르쳤습니다.

핵심 아이디어: "순서 (위치) 보다 내용 (유사성) 이 중요하다."
효과: 더 작은 파일, 더 선명한 화질, 더 빠른 처리 속도.

이 기술이 상용화되면, 우리가 스마트폰으로 사진을 보내거나 동영상을 볼 때 데이터 사용량은 줄고 화질은 더 좋아지는 경험을 하게 될 것입니다. 마치 마법처럼 불필요한 정보를 지워버리는 기술이라고 생각하시면 됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

최근 학습된 이미지 압축 (LIC) 은 Mamba 와 같은 상태 공간 모델 (SSM) 을 사용하여 전역 수용 영역 (Global Receptive Field) 을 선형 복잡도로 확보하려는 시도가 늘고 있습니다. 그러나 기존 Mamba 를 이미지 압축에 적용할 때 두 가지 근본적인 한계가 존재합니다.

콘텐츠 무관한 고정된 스캔 순서 (Content-Agnostic Fixed Scan): 기존 Mamba 는 래스터 스캔 (Raster Scan) 과 같은 고정된 공간 순서대로 토큰을 처리합니다. 이는 공간적으로 멀리 떨어져 있더라도 콘텐츠 (특징) 가 유사한 영역 간의 상관관계를 효과적으로 제거하지 못하게 합니다. 압축의 핵심인 중복성 제거는 공간적 근접성이 아닌 의미적 유사성에 기반해야 하는데, 고정된 스캔 경로는 이를 방해합니다.
엄격한 인과성 (Strict Causality): Mamba 는 순차적 모델로, 현재 토큰이 이전 토큰의 정보만 참조할 수 있습니다. 이미지는 비인과적 (Non-causal) 인 2 차원 구조이므로, 후속 토큰의 맥락을 무시하는 것은 전역적 의존성 모델링을 저해합니다. 이를 해결하기 위해 다방향 스캔을 사용하면 계산 비용이 4 배로 급증하여 비효율적입니다.

2. 제안 방법 (Methodology)

저자들은 위 한계를 극복하기 위해 **콘텐츠 인식 Mamba (Content-Aware Mamba, CAM)**를 도입했습니다. CAM 은 두 가지 핵심 메커니즘을 통해 Mamba 를 압축 작업에 최적화합니다.

A. 콘텐츠 적응형 토큰 순열 (Content-Adaptive Token Permutation, CTP)

개념: 고정된 공간 순서 대신 특징 공간 (Feature Space) 의 유사성에 기반하여 토큰을 재배열합니다.
구현:
- 코드북 기반 클러스터링: VQ-VAE 에서 영감을 받아 학습 가능한 공유 코드북 (Codebook) 을 사용합니다. 각 토큰을 코사인 유사도를 기반으로 $K$ 개의 클러스터로 할당합니다.
- 토큰 재배열: 동일한 클러스터에 속한 토큰들이 1 차원 시퀀스에서 연속적으로 위치하도록 순열 (Permutation) 을 적용합니다.
- 효과: 공간적으로 멀리 떨어져 있더라도 의미적으로 유사한 토큰들이 인접하게 되어, Mamba 의 선택적 스캔 (Selective Scan) 이 장기적인 의존성을 더 효과적으로 포착하도록 돕습니다. 추론 시에는 고정된 코드북을 사용하여 결정론적이고 효율적으로 수행됩니다.

B. 전역 사전 정보 프롬프팅 (Global-Prior Prompting, GPP)

개념: 다방향 스캔 없이 Mamba 의 엄격한 인과성을 완화하여 전역 맥락을 주입합니다.
구현:
- 중복성 인식 프롬프트 사전 (Redundancy-aware Prompt Dictionary): 클러스터링 결과와 분포 인식 사전 (Distribution-aware Dictionary) 을 기반으로 샘플별 전역 프롬프트를 생성합니다.
- 조건부 상태 공간 모델: 생성된 프롬프트 벡터가 Mamba 의 출력 행렬 ( $C$ ) 에 주입되어, 각 단계에서 전체 이미지의 통계적 정보 (전역 사전) 가 상태 업데이트에 영향을 미치도록 합니다.
- 효과: 현재 토큰이 이전 토큰뿐만 아니라 이미지 전체의 전역 정보를 참조할 수 있게 되어, 인과성 제약이 완화되고 전역적 의존성 모델링 능력이 향상됩니다.

3. 주요 기여 (Key Contributions)

콘텐츠 적응형 토큰 순열 메커니즘: 공간적 인접성이 아닌 특징 공간의 근접성을 우선시하여 토큰 순서를 재배열함으로써, Mamba 의 장기적 중복성 제거 능력을 획기적으로 강화했습니다.
전역 사전 정보 프롬프팅: 샘플별 전역 통계를 프롬프트로 주입하여 다방향 스캔 없이도 엄격한 인과성을 완화하고 전역 모델링 능력을 향상시켰습니다.
CMIC 모델 개발: 위 두 기술을 기반으로 한 엔드 - 투 - 엔드 학습 이미지 압축 모델 (CMIC) 을 구축하여, 기존 Mamba 기반 모델 및 전통적인 코덱을 능가하는 성능을 달성했습니다.

4. 실험 결과 (Results)

모델은 Kodak, Tecnick, CLIC 데이터셋에서 VTM-21.0 (최신 비디오 코딩 표준) 및 최신 LIC 모델들과 비교 평가되었습니다.

압축 성능 (Rate-Distortion Performance):
- Kodak: VTM-21.0 대비 BD-rate 15.91% 개선.
- Tecnick: VTM-21.0 대비 BD-rate 21.34% 개선.
- CLIC: VTM-21.0 대비 BD-rate 17.58% 개선.
- 기존 SOTA Mamba 기반 모델 (MambaVC, MambaIC) 보다도 압도적으로 우수한 성능을 보였습니다.
효율성:
- Transformer 기반 모델 (FTIC 등) 에 비해 파라미터 수와 FLOPs 를 크게 줄이면서도 더 나은 성능을 달성했습니다.
- MambaIC 대비 파라미터는 56%, FLOPs 는 57%, GPU 메모리 사용량은 78% 감소했습니다.
- 선형 복잡도를 유지하며 높은 압축 효율을 달성했습니다.

5. 의의 및 결론 (Significance)

이 논문은 Mamba 와 같은 상태 공간 모델이 이미지 압축 분야에서 가질 수 있는 잠재력을 극대화하는 새로운 패러다임을 제시합니다.

기존 한계 극복: Mamba 의 '고정된 스캔'과 '엄격한 인과성'이라는 구조적 한계를 콘텐츠 인식 메커니즘을 통해 유연하게 해결했습니다.
효율성과 성능의 균형: 다방향 스캔과 같은 계산 비용이 큰 방법 없이도 전역적 맥락을 효과적으로 활용하여, 선형 복잡도를 유지하면서 최상위 수준의 압축 성능을 달성했습니다.
실용성: 높은 압축률과 낮은 연산 비용으로 인해 실제 멀티미디어 응용 분야에 적용 가능한 강력한 솔루션을 제공합니다.

결론적으로, CMIC 는 이미지 내의 공간적 거리와 무관한 의미적 중복성을 효과적으로 제거함으로써, 학습된 이미지 압축 분야에서 새로운 State-of-the-Art (SOTA) 를 설정했습니다.