MI-DETR: A Strong Baseline for Moving Infrared Small Target Detection with Bio-Inspired Motion Integration

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"어두운 밤하늘에서 아주 작은 비행기나 새를 찾아내는 것"**처럼, 적외선 카메라로 작고 희미한 물체를 찾아내는 기술에 대한 이야기입니다.

기존의 방법들은 마치 **"어둠 속에서 눈만 믿고 물체를 쫓는 것"**처럼, 움직임을 감지하는 데 한계가 있었습니다. 하지만 이 논문은 **"인간의 눈과 뇌가 어떻게 움직임을 감지하는지"**에서 영감을 받아, 훨씬 더 똑똑하고 빠른 새로운 방법 (MI-DETR) 을 제안했습니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.

🕵️‍♂️ 문제: "어두운 밤, 작은 물체를 찾는 고난이도 게임"

적외선 카메라로 멀리 떨어진 작은 물체 (예: 적외선 신호를 보내는 드론) 를 찾으려면 두 가지 큰 문제가 있습니다.

물체가 너무 작고 희미합니다. (눈에 잘 안 보임)
배경이 너무 복잡합니다. (구름이 움직이거나 나뭇잎이 흔들리는 등 방해 요소가 많음)

기존의 AI 들은 이 문제를 해결하기 위해 **"여러 장의 사진을 한꺼번에 보고 추리"**하거나, **"사람이 직접 '이건 움직인다'라고 표시해 준 데이터"**를 많이 필요로 했습니다. 하지만 이는 계산이 느리거나, 사람이 일일이 표시해 줘야 하는 번거로움이 있었습니다.

💡 해결책: "인간의 눈 (망막) 과 뇌를 모방한 MI-DETR"

저희가 개발한 MI-DETR은 인간의 시각 시스템이 움직임을 어떻게 처리하는지 모방했습니다. 이를 세 단계로 나누어 설명해 볼까요?

1 단계: "눈의 망막" - 움직임을 따로 분리해 내기 (RCA)

비유: 우리가 물체를 볼 때, 뇌는 **'형상 (모양/색깔)'**과 **'움직임'**을 따로 처리합니다.
- 형상 (Parvocellular): 정지된 사물의 모양을 자세히 보는 역할.
- 움직임 (Magnocellular): 빠르게 움직이는 것을 감지하는 역할.
MI-DETR 의 방식:
이 시스템은 카메라로 들어온 영상을 처리할 때, 마치 **망막 (Retina)**처럼 작동하는 특별한 필터 (RCA) 를 먼저 씁니다. 이 필터는 **"움직이는 것"**만 골라내어 별도의 지도 (Motion Map) 를 만듭니다.
- 핵심: 이 과정은 수학적 공식으로만 이루어져서, 사람이 "이건 움직인다"라고 표시해 줄 필요가 없습니다. 또한, 움직임 지도와 원래 사진이 완벽하게 겹쳐져 (정렬되어) 있어서, 나중에 두 정보를 합칠 때 어긋날 일이 없습니다.

2 단계: "뇌의 V1 영역" - 두 정보를 서로 대화시키기 (PMI)

비유: 눈에서 분리된 '형상 정보'와 '움직임 정보'는 뇌의 V1 영역에서 만나 서로 이야기를 나눕니다.
- "형상"이 "움직임"에게 "저기 움직이는 게 드론일 수도 있어!"라고 알려줍니다.
- "움직임"이 "형상"에게 "저기 움직이는 게 구름일 뿐이야, 무시해!"라고 알려줍니다.
MI-DETR 의 방식:
우리는 **PMI(Parvocellular-Magnocellular Interconnection)**라는 장치를 만들었습니다. 이 장치는 두 가지 정보 (형상과 움직임) 가 서로 서로에게 필요한 정보를 주고받게 (대화하게) 합니다.
- 덕분에 AI 는 "움직이는 것"이 진짜 목표인지, 아니면 배경의 방해물 (구름 등) 인지를 훨씬 정확하게 판단할 수 있게 됩니다.

3 단계: "고급 뇌" - 최종 결정하기 (RT-DETR)

비유: 뇌의 최종 판단 센터가 "아, 이건 드론이구나!"라고 결론을 내리는 단계입니다.
MI-DETR 의 방식:
서로 대화하며 정제된 정보를 받아, 최종적으로 **"목표물입니다!"**라고 박스 (Bounding Box) 를 그립니다. 이 과정은 매우 빠르고 정확합니다.

🏆 왜 이 방법이 특별한가요? (결과)

기존의 방법들은 다음과 같은 문제가 있었습니다:

느림: 여러 장의 사진을 동시에 처리해야 해서 속도가 느렸습니다.
번거로움: 움직임을 가르치기 위해 사람이 일일이 표시해 준 데이터가 필요했습니다.
혼동: 배경의 움직임 (구름, 나뭇잎) 과 목표물의 움직임을 구별하지 못해 헷갈렸습니다.

MI-DETR 의 성과:

속도: 한 장의 사진만 보고도 (내부 기억을 활용하여) 실시간으로 처리할 수 있어 매우 빠릅니다.
정확도: 복잡한 배경에서도 목표물을 찾아내는 능력이 기존 최고의 방법보다 압도적으로 뛰어납니다. (예: IRDST-H 데이터셋에서 26% 이상 성능 향상)
간편함: 사람이 움직임을 따로 표시해 줄 필요가 없습니다. 시스템이 스스로 움직임을 감지하고 학습합니다.

📝 한 줄 요약

"MI-DETR 은 인간의 눈이 '형상'과 '움직임'을 따로 분리했다가 뇌에서 다시 합쳐서 판단하는 방식을 모방하여, 복잡한 배경 속에서도 아주 작은 적외선 물체를 빠르고 정확하게 찾아내는 새로운 AI 입니다."

이 기술은 드론 감시, 산불 탐지, 자율 주행 등 다양한 분야에서 더 안전하고 정확한 감시를 가능하게 할 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

적외선 소형 표적 탐지 (ISTD, Infrared Small Target Detection) 는 자율 주행, 무인 항공기 (UAV), 감시, 산불 감시 등 다양한 분야에서 중요하게 활용되지만, 다음과 같은 고유한 어려움이 존재합니다.

낮은 신호 대 잡음비 (SNR) 및 낮은 대비: 먼 거리에서 촬영된 표적은 매우 작고 어두우며, 배경 잡음에 쉽게 가려집니다.
복잡한 배경: 구름, 흔들리는 나뭇가지, 새 등 배경 요소들도 움직이므로, 기존 방법들은 표적의 움직임과 배경의 움직임을 구분하기 어렵습니다.
기존 방법의 한계:
- 단일 프레임 (Single-frame) 방법: 속도는 빠르지만 시공간적 (Spatiotemporal) 정보를 활용하지 못해 동적 배경에서 성능이 떨어집니다.
- 다중 프레임 (Multi-frame) 방법: 시공간 정보를 활용하지만, 대부분의 기존 딥러닝 기반 방법은 **암시적 (Implicit)**으로 움직임을 학습합니다. 이는 배경의 움직임까지 표적 움직임으로 오인하여 (Motion Entanglement) 정밀한 탐지를 어렵게 만듭니다.
- 명시적 (Explicit) 운동 모델링의 문제: 최근 연구들은 언어 기반의 운동 설명 (Semantic Motion Descriptors) 을 사용하여 정밀도를 높였으나, 이는 추가적인 주석 (Annotation) 비용이 많이 들고, 텍스트와 시각 특징 간의 정렬 (Alignment) 문제를 야기합니다.

핵심 질문: 추가적인 운동 주석 없이도 운동과 외관 (Appearance) 특징을 자연스럽게 정렬된 상태로 명시적으로 분리하고, 이를 통해 정밀한 운동 표현을 얻을 수 있는 방법은 무엇인가?

2. 제안 방법론: MI-DETR (Methodology)

저자들은 영장류의 시각 시스템 (Retina $\rightarrow$ LGN $\rightarrow$ V1 $\rightarrow$ 고위 영역) 에서 영감을 받아 생체 모방 (Bio-inspired) 아키텍처인 **MI-DETR (Motion Integration DETR)**을 제안했습니다. 이 아키텍처는 **분리 (Separation) - 상호 연결 (Interconnection) - 인식 (Recognition)**의 3 단계로 구성됩니다.

1 단계: 저수준 시각 처리 (Retina-Inspired Motion Modeling)

목표: 운동과 외관 신호를 명시적으로 분리하되, 공간적 정렬을 유지하고 추가 주석 없이 운동 맵을 생성합니다.
핵심 구성 요소: 망막 세포 자동자 (Retinal Cellular Automaton, RCA)
- 입력된 적외선 프레임 시퀀스를 **명시적인 운동 맵 (Motion Map)**으로 변환하는 결정론적 (Deterministic) 픽셀 단위 연산자입니다.
- 망막 구조 모방: 광수용체 (Photoreceptors), 수평 세포 (Horizontal cells), 양극 세포 (Bipolar cells), 무수지 세포 (Amacrine cells), 대세포 신경절 (Magnocellular ganglion cells) 의 5 단계 레이어로 구성됩니다.
- 특징: 학습 가능한 파라미터가 없으며, 프레임 간의 차분과 공간적 그래디언트를 기반으로 운동 정보를 추출합니다. 생성된 운동 맵 ( $M_t$ ) 은 입력 이미지 ( $I_t$ ) 와 **동일한 픽셀 격자 (Spatial Grid)**를 공유하므로, 외관 경로와 운동 경로 간의 정렬 문제가 자연스럽게 해결됩니다.

2 단계: 중수준 시각 처리 (Parvocellular–Magnocellular Interconnection)

목표: 분리된 운동 (Magnocellular, M) 과 외관 (Parvocellular, P) 경로 간의 상호작용을 통해 정밀한 운동 표현을 학습합니다.
핵심 구성 요소: P-M 상호 연결 블록 (PMI Block)
- 생체 시각 시스템의 V1 층 4B 에서 P 와 M 신호가 수렴하고 상호작용하는 원리를 모방합니다.
- 양방향 크로스 어텐션 (Bidirectional Cross-Attention): 외관 특징이 운동 특징을 보완하고, 운동 단서가 외관 특징을 강화하도록 상호 정보를 교환합니다.
- 이 과정을 통해 단순한 운동 맵을 넘어, 배경 잡음을 억제하고 표적을 정밀하게 구분하는 **세밀한 운동 표현 (Fine-grained Motion Representation)**이 생성됩니다.

3 단계: 고수준 시각 처리 (Object Recognition)

목표: 정제된 이중 경로 (Dual-pathway) 특징을 통합하여 최종 표적 탐지를 수행합니다.
구현: RT-DETR 디코더를 사용합니다.
- P 경로 (외관) 와 M 경로 (운동) 에서 추출된 다중 스케일 특징을 통합 (Concatenation) 한 후, FPN-PAN 구조를 통해 특징을 강화합니다.
- RT-DETR 디코더는 변형 가능한 어텐션 (Deformable Attention) 을 사용하여 표적의 위치와 신뢰도를 예측합니다.

3. 주요 기여 (Key Contributions)

운동 모델링 전략에 대한 체계적 분석: 기존 ISTD 방법들을 '암시적 시공간 학습'과 '명시적 의미 주석'으로 분류하고, 각각의 한계를 분석하여 생체 모방 접근법의 필요성을 제시했습니다.
MI-DETR 프레임워크 제안:
- RCA (Retinal Cellular Automaton): 추가 주석 없이도 픽셀 정렬이 된 명시적 운동 맵을 생성하는 새로운 모듈.
- PMI Block: 생체 원리에 기반한 양방향 경로 상호작용을 통해 의미 주석 없이도 정밀한 운동 표현을 달성.
성능 입증: 세 가지 주요 벤치마크에서 SOTA (State-of-the-Art) 성능을 달성하면서도 실시간 추론 속도를 유지했습니다.

4. 실험 결과 (Results)

세 가지 주요 벤치마크 (IRDST-H, DAUB-R, ITSDT-15K) 에서 기존 최첨단 방법 (SSTNet, LMAFormer, iMoPKL 등) 과 비교 평가되었습니다.

IRDST-H (가장 어려운 벤치마크):
- mAP@50: 70.3% 달성 (기존 최강 다중 프레임 베이스라인인 iMoPKL 대비 +26.35%p 향상).
- F1 점수: 72.7% (iMoPKL 대비 +6.35%p 향상).
- 속도: RTX 3090 에서 34.60 FPS로 실시간 처리 가능.
DAUB-R: mAP@50 98.0%, F1 94.35% 달성.
ITSDT-15K: mAP@50 88.3%, F1 87.60% 달성.
효율성: 단일 프레임 입력 (내부 상태 메모리 활용) 으로 다중 프레임 방법보다 높은 성능을 내면서도 계산 비용 (GFLOPs) 이 낮고 속도가 빠릅니다.
일반화 능력: YOLO 시리즈 (v8, v10, v11, v12) 및 RT-DETR 등 다양한 백본 네트워크에 PMI 블록을 적용했을 때 일관된 성능 향상을 보였습니다.

5. 의의 및 결론 (Significance)

생체 모방의 실용적 적용: 영장류 시각 시스템의 '분리 - 상호 연결 - 인식' 구조가 복잡한 배경에서의 적외선 소형 표적 탐지에 매우 효과적임을 입증했습니다.
주석 비용 절감: 언어 기반의 복잡한 운동 주석이나 추가적인 정렬 모듈 없이도, RCA 를 통해 자연스러운 운동 - 외관 정렬을 달성하여 데이터 라벨링 비용을 크게 줄였습니다.
강건한 탐지: 배경의 동적 변화 (구름, 나뭇가지 등) 에 대한 오검출을 줄이고, 실제 표적에 대한 탐지 민감도를 동시에 향상시켜, 실제 환경 (Ground-to-Air 등) 에서의 적용 가능성을 높였습니다.

결론적으로, MI-DETR 은 복잡한 동적 배경 하에서도 높은 정확도와 실시간성을 동시에 만족시키는 강력한 베이스라인을 제시하며, 생체 모방 원리가 컴퓨터 비전 문제 해결에 유효한 패러다임을 보여줍니다.