Mask-aware inference with State-Space Models

이 논문은 State-Space 모델인 Mamba 아키텍처가 무작위 형태의 결손 데이터를 처리할 수 있도록 '부분 합성 (Partial Convolutions)'의 원리를 도입한 새로운 구성 요소인 '부분 비전 마바 (Partial Vision Mamba, PVM)'를 제안하고, 이를 통해 깊이 완성, 이미지 인페인팅, 결손 데이터 분류 등 다양한 작업에서 효과성을 입증합니다.

Ignasi Mas, Ramon Morros, Javier-Ruiz Hidalgo, Ivan Huerta

게시일 2026-03-06
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"눈이 가려진 상태에서도 세상을 똑똑하게 이해하는 새로운 AI"**에 대한 이야기입니다.

기존의 AI(컴퓨터 비전) 는 완벽한 사진만 보고 학습합니다. 하지만 현실 세계는 다릅니다. 안개가 끼거나, 센서가 고장 나거나, 누군가 얼굴을 가렸을 때 데이터가 일부 누락되거나 '잘못된 값'으로 채워져 있습니다. 이런 불완전한 데이터를 기존 AI 에게 주면, AI 는 그 잘못된 값까지 진짜 정보인 줄 알고 혼란에 빠집니다.

이 논문은 **Mamba(마마)**라는 최신 AI 기술에 **'가려진 부분을 무시하고 진짜 정보만 골라보는 능력'**을 심어주었습니다. 이를 **PVM(부분적 비전 마마)**이라고 부릅니다.

이 내용을 일상적인 비유로 설명해 드릴게요.


1. 문제 상황: "눈이 가려진 그림자 놀이"

상상해 보세요. 여러분이 어두운 방에서 그림자 놀이를 하고 있습니다.

  • 기존 AI (CNN 이나 일반 Mamba): 그림자가 비친 벽을 보는데, 누군가 손으로 가린 부분 (검은색) 을 그냥 '검은색 벽'이라고 믿고 전체 그림을 그립니다. 그래서 가려진 부분까지 검은색으로 칠해버려서 얼굴이 뭉개지거나 엉뚱한 모양이 됩니다.
  • 현실의 문제: LiDAR(거리 측정 센서) 나 안개 낀 사진처럼 데이터가 일부 뚫려 있거나 (구멍이 있거나), 0 으로 채워져 있는 경우가 많습니다. 기존 AI 는 이 '구멍'을 진짜 정보로 착각합니다.

2. 해결책: "가려진 부분을 무시하는 스마트한 눈 (PVM)"

이 논문이 제안한 PVM은 마치 스마트한 탐정과 같습니다.

  • 마스크 (Mask) 라는 안경: 탐정에게 '어떤 부분이 가려져 있는지' 알려주는 안경을 씌워줍니다.
  • 진짜 정보만 골라먹기: 탐정은 가려진 부분 (검은색) 이 있는 것을 알기 때문에, 그 부분을 무시하고 가려지지 않은 진짜 정보 (얼굴, 나무, 건물 등) 만 집중해서 분석합니다.
  • 결과: 가려진 부분이 있어도, 나머지 정보만으로 전체 그림을 완벽하게 복원하거나 분류할 수 있습니다.

3. 어떻게 작동할까? (세 가지 핵심 기술)

이 탐정 (PVM) 이 어떻게 작동하는지 세 가지 비유로 설명합니다.

① '구멍 난 퍼즐'을 맞추는 법 (패치 임베딩)

기존 AI 는 퍼즐 조각을 다 합쳐서 보는데, 조각이 하나 빠진 상태면 그 빈 공간도 퍼즐의 일부라고 착각합니다.

  • PVM 의 방법: "여기 조각이 없구나!"라고 먼저 확인합니다. 그리고 빈 공간에는 '아무것도 없는 상태'를 의미하는 특별한 마커를 붙입니다. AI 는 이 마커를 보고 "아, 여기는 무시해야겠다"라고 학습합니다.

② '소문'이 퍼지는 방식 (상태 공간 모델)

Mamba 는 정보를 한 줄로 이어가며 처리합니다. (소문이 한 사람에서 다음 사람으로 퍼지는 것처럼요.)

  • 기존 방식: 소문을 전할 때, 가짜 소문 (잘못된 데이터) 을 전하는 사람이 있으면 그 소문이 전체에 퍼져버립니다.
  • PVM 의 방법: "이 사람은 가짜 소문만 전하네?"라고 판단하면, 그 사람의 소문을 차단하고 진짜 소문만 다음 사람에게 전달합니다. 그래서 전체 소문의 흐름이 깨끗하게 유지됩니다.

③ '가려진 부분 채우기' (Depth Completion & Inpainting)

  • 깊이 측정 (Depth Completion): 안개 낀 도로에서 차의 거리를 재는데, 센서 데이터가 일부 뚫려 있습니다. PVM 은 뚫린 부분을 무시하고, 남은 데이터로 도로의 모양을 완벽하게 재구성합니다. (기존 AI 는 뚫린 부분을 0 으로 채워 도로가 갑자기 끊긴 것처럼 오해했습니다.)
  • 그림 채우기 (Inpainting): 사진에서 얼굴 일부를 가려도, PVM 은 가려진 부분을 '무시'하고 나머지 얼굴 특징을 보고 눈, 코, 입을 자연스럽게 다시 그려냅니다.

4. 실험 결과: "왜 PVM 이 더 잘할까?"

논문은 세 가지 시험을 치렀습니다.

  1. 깊이 측정 (Depth Completion): 안개 낀 도로에서 차의 거리를 재는 실험.
    • 결과: 기존 AI 보다 23% 더 정확해졌습니다. 마치 안개 속에서도 선명한 도로를 보는 것과 같습니다.
  2. 그림 채우기 (Inpainting): 얼굴 사진의 일부를 지우고 다시 그리는 실험.
    • 결과: 가려진 부분 (머리, 턱선 등) 을 훨씬 자연스럽고 선명하게 복원했습니다. 기존 방식은 흐릿하거나 이상한 선이 생겼지만, PVM 은 실제 사진처럼 완벽하게 만들었습니다.
  3. 사진 분류 (Classification): 얼굴 일부가 가려진 사진을 보고 "이게 누구야?"라고 맞추는 실험.
    • 결과: 정답률이 36%나 급상승했습니다. 눈만 보여도 "아, 이건 고양이구나!"라고 맞출 수 있게 된 것입니다.

5. 결론: "불완전한 세상에서도 완벽한 판단"

이 논문의 핵심 메시지는 다음과 같습니다.

"세상은 완벽하지 않습니다. 데이터는 항상 일부가 빠지거나 망가져 있습니다. 하지만 PVM이라는 새로운 기술을 쓰면, AI 는 그 '빠진 부분'에 일희일비하지 않고, 남은 진짜 정보만 믿고 훨씬 똑똑하고 정확한 판단을 내릴 수 있습니다."

이 기술은 자율주행차 (안개 낀 도로), 의료 영상 (부정확한 스캔), 보안 카메라 (가려진 얼굴) 등 현실 세계의 불완전한 데이터를 다루는 모든 분야에서 혁신을 가져올 것으로 기대됩니다.