Missing No More: Dictionary-Guided Cross-Modal Image Fusion under Missing Infrared

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"적외선 카메라가 고장 나거나 없을 때, 가시광선 카메라 (일반 카메라) 사진만으로도 밤이나 안개 속에서도 잘 보이는 '완벽한 사진'을 만드는 방법"**을 소개합니다.

기존의 방법들은 보통 적외선과 가시광선 두 장의 사진을 모두 필요로 했습니다. 하지만 적외선 사진이 없으면, 기존 AI 는 "상상"해서 적외선 사진을 만들어내려다 보니 엉뚱한 것들이 생기거나 (환각 현상), 열기 (열화상) 정보가 제대로 반영되지 않는 문제가 있었습니다.

이 논문은 이를 해결하기 위해 세 가지 핵심 아이디어를 사용하는데, 이를 일상적인 비유로 설명해 드리겠습니다.

1. 핵심 아이디어: "공통된 언어로 대화하기" (사전 기반 접근법)

기존 방법들은 적외선 사진을 픽셀 (화소) 단위로 직접 그리려 했습니다. 이는 마치 "눈으로 보지 않고 그림을 그리는 것"처럼 불확실하고 통제하기 어렵습니다.

이 논문은 대신 모든 사진을 '공통된 언어 (사전)'로 번역하는 방식을 썼습니다.

비유: 가시광선 사진과 적외선 사진을 각각 다른 언어 (영어와 프랑스어) 로 쓰인 책이라고 가정해 봅시다.
- 기존 방법: 영어 책을 보고 프랑스어 책을 "상상"해서 만들어내려 합니다. (잘못된 내용이 생기기 쉬움)
- 이 논문 방법: 두 언어를 모두 해석할 수 있는 **공통된 '의미 사전 (딕셔너리)'**을 먼저 만듭니다. 그리고 가시광선 사진을 이 사전의 '단어 (원자)'들로 해독한 뒤, 그 단어들을 적외선 언어로 자연스럽게 변환하고 다시 합칩니다.
- 효과: 이렇게 하면 AI 가 임의로 그림을 그리는 것이 아니라, 사전에 정의된 '정직한 단어'들만 조합하므로 결과물이 훨씬 자연스럽고 신뢰할 수 있습니다.

2. 두 단계의 마법: "추론과 다듬기"

이 시스템은 크게 세 가지 단계로 작동합니다.

① 단계 1: 가시광선으로 적외선 '의미'를 읽어내기 (VGII)

상황: 적외선 카메라가 없으니, 일반 카메라 (가시광선) 사진만 있습니다.
작동: AI 는 이 일반 사진을 앞서 만든 '공통 사전'으로 해독합니다. 그리고 "이 나무는 밤에도 열기를 띠겠지?", "이 사람은 따뜻하겠지?"라고 추론하여 **가상의 적외선 정보 (계수)**를 만들어냅니다.
비유: 요리사가 재료 (가시광선) 만 보고 "이 요리는 어떤 향신료가 들어갔을지"를 추론해 내는 것과 같습니다.

② 단계 2: AI 비평가의 조언 듣기 (LLM 활용)

문제: 처음 추론한 적외선 정보가 너무 약하거나 부정확할 수 있습니다.
해결: 여기서 **대형 언어 모델 (LLM, ChatGPT 같은 AI)**이 등장합니다. 하지만 이 AI 는 그림을 그리는 게 아니라, "비평가" 역할을 합니다.
작동: "이 사진은 밤에 찍힌 거니까 열기 정보가 더 강해야 해"라고 텍스트로 지시하면, AI 는 그 지시를 받아 가상의 적외선 정보를 살짝 다듬습니다.
비유: 요리사가 만든 요리를 맛보고 "조금 더 후추를 뿌려야겠다"라고 조언하는 미식가가 있는 셈입니다. 이 조언은 그림을 다시 그리는 게 아니라, 재료의 양 (계수) 만 살짝 조절하는 것이므로 매우 빠르고 정확합니다.

③ 단계 3: 완벽한 합성 (AFRI)

작동: 원래의 가시광선 사진 (세부 묘사) 과 다듬어진 가상의 적외선 정보 (열기) 를 다시 '공통 사전'을 통해 섞습니다.
결과: 나무의 질감은 일반 사진처럼 선명하게, 하지만 밤에 보이는 열기는 적외선처럼 뚜렷하게 잡힌 완벽한 사진이 나옵니다.

3. 왜 이 방법이 특별한가요?

상상하지 않고 '추론'합니다:
- 기존 방법: "적외선이 없으니 무작정 만들어보자" (화려하지만 엉뚱한 게 나올 수 있음).
- 이 방법: "가시광선 정보를 바탕으로 논리적으로 적외선 정보를 찾아내자" (안정적이고 사실적임).
빠르고 가볍습니다:
- 무거운 그림 그리기 AI (생성형 모델) 를 쓰지 않고, 이미 학습된 '사전'과 간단한 계산만 사용하므로 컴퓨터 성능이 낮아도 잘 돌아갑니다.
실전 성능이 좋습니다:
- 실험 결과, 이 방법으로 만든 사진으로 물체를 찾거나 (객체 탐지), 길을 구분하는 (세그멘테이션) 작업에서 기존에 두 장의 사진을 다 가진 경우와 거의 똑같은 좋은 성능을 냈습니다.

요약

이 논문은 **"적외선 카메라가 고장 나도 걱정하지 마세요. 일반 카메라 사진만 있으면, AI 가 '공통 사전'과 '비평가 AI'의 도움을 받아 밤에도 잘 보이는 완벽한 사진을 만들어 드립니다"**라고 말합니다.

이는 마치 눈이 보이지 않는 밤에, 손끝으로 물체의 온도를 느끼며 (적외선) 주변의 모양을 정확히 파악하는 (가시광선) 능력을 AI 가 갖게 해주는 기술입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 적외선 (IR) 과 가시광선 (VIS) 이미지 융합은 감시, 로봇, 자율 주행 등 다양한 분야에서 핵심적인 역할을 합니다. 기존 대부분의 방법은 훈련 및 추론 시 두 가지 모드 (IR 과 VIS) 가 모두 존재한다고 가정합니다.
문제점: 실제 환경에서는 센서 고장이나 환경적 제약으로 인해 **적외선 이미지가 결손 (Missing-IR)**되는 경우가 빈번합니다.
- 기존 접근법들은 결손된 IR 이미지를 픽셀 공간 (Pixel Space) 에서 생성 (Generative Substitution) 한 후 융합하는 방식을 취합니다.
- 그러나 이러한 픽셀 기반 생성 방식은 제어가 어렵고, 물리적 일관성이 부족하며, 해석 불가능한 '블랙박스' 특성을 가집니다. 이로 인해 열적 단서의 불안정한 완성, 구조적 세부 정보 손실, 혹은 환각 (Hallucination) 현상이 발생할 수 있습니다.

2. 제안 방법론 (Methodology)

저자들은 **사전 (Dictionary) 기반의 계수 공간 (Coefficient Domain)**에서 작동하는 새로운 프레임워크를 제안합니다. 이는 픽셀 공간 생성이 아닌, **공유 합성곱 사전 (Shared Convolutional Dictionary)**을 통해 두 모달리티를 통일된 원자 (Atom) 공간으로 매핑하고, 계수 공간에서 추론 및 융합을 수행합니다.

프레임워크는 크게 세 가지 핵심 모듈로 구성됩니다:

가. 공동 공유 사전 표현 학습 (JSRL: Joint Shared-dictionary Representation Learning)

목적: IR 과 VIS 이미지를 통일된 원자 공간 (Atom Space) 에 투영하여 두 모달리티 간의 구조적 대응 관계를 학습합니다.
작동 원리:
- IR 과 VIS 이미지를 공유 사전 $D$ 와 계수 맵 $S_{vis}, S_{ir}$ 로 분해합니다.
- 재구성 오차 최소화, 계수 희소성 (Sparsity) 사전, 사전 정규화 등을 포함한 목적 함수를 최적화합니다.
- Deep Unfolding Network를 사용하여 전통적인 최적화 알고리즘 (ISTA 등) 을 신경망 레이어로 변환합니다. 이를 통해 사전 학습과 계수 추론을 동시에 수행하며, 해석 가능한 구조를 유지합니다.

나. 가시광선 유도 적외선 추론 (VGII: VIS-Guided IR Inference)

목적: 실제 IR 이미지가 없는 상태에서, VIS 이미지의 계수를 기반으로 가상의 IR 계수 (Pseudo-IR Coefficients) 를 추론합니다.
작동 원리:
1. 인코딩: 학습된 공유 사전과 HeadNet 을 사용하여 VIS 이미지를 계수 공간으로 인코딩합니다.
2. 전송 (Transfer): 인코딩된 VIS 계수를 IR 계수로 매핑하는 Representation Inference Network (RIN) 을 사용합니다.
3. 약한 의미 사전 (Weak Semantic Prior) 활용: 초기 추론된 IR 이미지를 재구성한 후, **동결된 대규모 언어 모델 (Frozen LLM)**을 '시각적 비평가'로 활용합니다. LLM 은 텍스트 특징을 추출하여 계수 공간에서 선형 변조 (Linear Modulation, $\gamma, \beta$ ) 파라미터를 예측합니다. 이는 열적 단서 (Thermal Cues) 를 보정하고 완성도를 높이는 역할을 합니다.
4. 반복 정제: 변조된 계수를 다시 RIN 에 통과시켜 최종 IR 계수를 생성합니다.

다. 표현 추론을 통한 적응형 융합 (AFRI: Adaptive Fusion via Representation Inference)

목적: VIS 구조 정보와 추론된 IR 열 정보를 계수 공간에서 적응적으로 융합합니다.
작동 원리:
- Reasoning Fusion Network (RFN): 윈도우 어텐션 (Window Attention) 과 합성곱 혼합 (Convolutional Mixing) 을 결합한 블록을 사용합니다.
- 게이팅 메커니즘: 각 사전 원자 (Atom) 에 대해 VIS 또는 추론된 IR 계수 중 어느 쪽을 더 강조할지 적응적인 가중치 ( $W_{vis}, W_{pir}$ ) 를 학습합니다. (예: 구조적 에지는 VIS, 열적 특성은 IR 계수를 우선시)
- 재구성: 융합된 계수와 공유 사전 $D$ 를 사용하여 최종 융합 이미지를 재구성합니다.

3. 주요 기여 (Key Contributions)

사전 유도 계수 공간 패러다임: 픽셀 공간 생성이 아닌, 인코딩 $\rightarrow$ 전송 $\rightarrow$ 융합 $\rightarrow$ 재구성의 폐쇄 루프를 계수 공간에서 수행합니다. 이는 해석 가능성 (Interpretability) 과 견고성을 크게 향상시킵니다.
약한 의미 사전에 의한 제어 가능한 완성: 무거운 생성 헤드 대신 동결된 LLM을 경량 의미 사전으로 도입하여, 계수 공간에서 선형 변조만 수행합니다. 이는 열적 정보의 안정적인 보충을 가능하게 하며, 픽셀 수준의 아티팩트를 방지합니다.
간단한 훈련과 낮은 오버헤드 추론: IR 이미지가 없는 환경에서도 추론이 가능하며, 훈련 시 적대적 학습 (GAN) 이나 확산 모델 (Diffusion) 의 복잡한 과정이 필요하지 않습니다.

4. 실험 결과 (Results)

데이터셋: FLIR, MSRS, KAIST 등 다양한 IR-VIS 융합 데이터셋에서 평가되었습니다.
성능 비교:
- 정량적 지표: 평균 기울기 (AG), 대비 엔트로피 (CE), 에지 강도 (EI), 이미지 엔트로피 (EN) 등 주요 지표에서 기존 SOTA 방법들 (U2Fusion, TarDAL, CDDFuse 등) 과 비교하여 동등하거나 우수한 성능을 보였습니다.
- 하류 작업 (Downstream Tasks): 객체 감지 (YOLOv5) 및 의미 분할 (SegFormer) 작업에서, IR 이 결손된 상황에서도 풀모달 (Full-modal) 융합 방법과 유사한 높은 정확도 (mAP, mIoU) 를 달성했습니다.
비교 분석:
- 기존 방식 (IR 생성 후 융합) 과 비교했을 때, 모달리티 불균형으로 인한 블러링, 고스트 현상, 과도한 밝기/어두움 문제가 현저히 감소했습니다.
- 복잡도 분석: 제안된 방법은 학습 가능한 파라미터 수가 적고, FLOPs 및 추론 시간이 기존 생성 기반 방법들보다 훨씬 효율적입니다.

5. 의의 및 결론 (Significance)

이 논문은 적외선 모달리티가 결손된 상황에서 고품질의 융합 이미지를 생성하기 위한 새로운 패러다임을 제시합니다.

해석 가능성: 블랙박스 생성 모델 대신 사전 기반의 계수 공간 추론을 통해 물리적 일관성과 해석 가능성을 확보했습니다.
실용성: 추가적인 IR 센서 없이도 가시광선 이미지만으로 열적 정보를 효과적으로 복원 및 융합할 수 있어, 센서 고장이나 비용 절감이 필요한 실제 응용 분야 (자율주행, 감시 등) 에 매우 유용합니다.
혁신성: LLM 을 의미 사전으로 활용하여 계수 공간에서 열적 정보를 보정하는 방식은 기존 이미지 융합 연구에서 시도되지 않은 새로운 접근법입니다.

결론적으로, 이 연구는 "Missing No More"라는 제목처럼, 적외선 데이터가 없더라도 신뢰할 수 있는 다중 모달리티 융합 시스템을 구축할 수 있음을 입증했습니다.