ICYM2I: The illusion of multimodal informativeness under missingness

Each language version is independently generated for its own context, not a direct translation.

🎬 비유: "요리사, 카메라, 그리고 사라진 재료"

상상해 보세요. 여러분이 **최고의 요리사 (AI 모델)**를 훈련시키고 있습니다. 이 요리사는 두 가지 재료를 이용해 요리를 만듭니다.

신선한 채소 (모달리티 1: 예, 엑스레이)
고급 소스 (모달리티 2: 예, 심전도)

1. 문제 상황: "완벽한 요리책" vs "실제 주방"

연구실 (훈련 환경) 에서는 요리사가 채소와 소스가 모두 완벽하게 준비된 100 개의 요리를 배웁니다. 이 요리사는 "채소 + 소스 = 최고의 맛"이라는 것을 배웁니다.

하지만 실제 식당 (실제 적용 환경) 으로 나가면 상황이 달라집니다.

손님이 소스를 주문하지 않았을 수도 있고 (비용 문제),
소스 병이 깨져서 소스가 없었을 수도 있고 (장비 고장),
혹은 채소가 없으면 아예 소스도 안 주는 식당 규칙이 있을 수도 있습니다 (선택적 수집).

이때, 소스가 없는 요리만 남게 되면, 요리사는 "아, 채소만으로도 맛이 나네!"라고 착각하게 됩니다. 혹은 "채소가 없으면 소스도 의미가 없구나"라고 오해할 수도 있습니다.

여기서 핵심 문제는 무엇일까요?
우리는 "소스가 정말 중요한 재료인가?"를 알고 싶어 합니다. 하지만 소스가 왜 사라졌는지 (채소 유무, 날씨, 손님의 성향 등) 를 고려하지 않고 단순히 "소스가 있는 요리만 분석하면" 소스의 진짜 가치를 잘못 판단하게 됩니다.

2. 기존 방법의 함정

기존의 AI 연구자들은 "소스가 없는 요리 (데이터) 는 버려버리고, 소스가 있는 요리만 가지고 분석하자"라고 했습니다.

결과: "소스는 채소보다 훨씬 더 맛있다!"라고 결론 내릴 수 있습니다.
현실: 사실은 소스가 없는 요리들이 특정 상황 (예: 채소가 아주 나쁜 경우) 에서만 사라졌기 때문에, 소스가 있는 요리들은 원래부터 채소도 좋았던 경우들만 모인 것이었을 뿐입니다. 즉, 데이터의 편향 (Bias) 때문에 소스의 가치를 과대평가한 것입니다.

3. ICYM2I 의 해결책: "가중치 저울"

이 논문은 ICYM2I라는 새로운 저울을 제안합니다. 이 저울은 **누가 왜 재료를 놓쳤는지 (누가 소스를 안 가져왔는지)**를 분석합니다.

원리: "아, 소스가 없는 요리들은 원래 채소가 나빴을 때만 사라졌구나. 그럼 이 요리들을 분석할 때, 소스가 있는 요리들보다 가중치 (점수) 를 더 높게 줘야겠어."
효과: 이렇게 하면, 소스가 실제로 얼마나 중요한지, 채소와 소스가 함께 얼마나 시너지를 내는지 왜곡 없이 정확하게 계산할 수 있습니다.

📝 이 논문이 말하고 싶은 3 가지 핵심

데이터가 '없다'는 것은 단순한 결함이 아닙니다.
데이터가 빠진 이유 (비용, 장비 고장, 선택적 수집) 가 데이터의 내용과 연결되어 있다면, 그 데이터는 왜곡된 정보를 줍니다. 마치 "비 오는 날에만 우산을 파는 가게"를 보고 "우산은 항상 팔린다"고 생각하는 것과 같습니다.
단순히 '없는 데이터'를 버리면 안 됩니다.
많은 AI 연구가 "데이터가 안 보이는 건 빼자"라고 하지만, 이렇게 하면 AI 는 실제 세상에서 어떻게 작동할지 예측하지 못합니다. 오히려 없는 데이터가 왜 없었는지를 수학적으로 보정해야 합니다.
실제 의료 현장에서의 중요성 (예시)
논문의 마지막 부분에서는 심장병 진단을 예로 들었습니다.
- 상황: 심장 초음파 (TTE) 는 정확하지만 비싸고 시간이 걸려서 잘 안 합니다. 대신 심전도 (ECG) 는 쉽게 합니다. 엑스레이 (CXR) 는 가끔만 찍습니다.
- 기존 분석: "엑스레이가 있는 경우만 보면, 엑스레이가 심장병 진단에 아주 유용해 보인다!"
- ICYM2I 분석: "잠깐! 엑스레이는 심장병이 의심될 때만 찍었기 때문에, 엑스레이가 있는 데이터는 이미 병이 심한 경우들이 모여있을 뿐이야. 보정을 해보니 엑스레이는 심전도만큼만 유용하고, 따로 새로운 정보는 거의 없었어."
- 결론: 이 보정을 통해 병원에서는 불필요한 엑스레이 촬영을 줄이고, 더 중요한 심전도 검사에 집중할 수 있게 됩니다.

💡 한 줄 요약

"데이터가 빠진 이유를 무시하고 분석하면, AI 는 세상을 잘못 이해하게 됩니다. ICYM2I 는 그 '빠진 이유'를 수학적으로 보정하여, 각 데이터 (모달리티) 의 진짜 가치를 정확히 찾아내는 방법입니다."

이 방법은 인공지능이 의료, 로봇, 추천 시스템 등 실생활에 적용될 때, "어떤 데이터를 더 수집해야 할지"에 대한 올바른 결정을 내리는 데 큰 도움을 줄 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

다중 모달 학습 (Multimodal Learning) 은 다양한 데이터 유형을 결합하여 예측 성능을 향상시키는 데 큰 잠재력을 가지고 있습니다. 그러나 실제 환경 (Source) 과 배포 환경 (Target) 사이에는 데이터 수집 비용, 하드웨어 고장, 개인정보 보호, 사용자 선호도 등 다양한 요인으로 인해 결측치 (Missingness) 패턴이 달라질 수 있습니다.

기존 연구들은 다음과 같은 한계를 가집니다:

완전 관측 가정: 대부분의 다중 모달 벤치마크와 알고리즘은 모든 모달리티가 완전히 관측되었다고 가정하거나, 결측된 샘플을 단순히 제거 (Discarding) 합니다.
결측 메커니즘의 안정성 가정: 소스 환경과 타겟 환경 간의 결측 과정 (Missingness Process) 이 동일하다고 암묵적으로 가정합니다.
편향된 정보성 평가: 결측을 고려하지 않고 단순히 관측된 데이터 ( $\Omega_{obs}$ ) 에서 모달리티의 예측 성능이나 정보 이론적 가치 (Information-theoretic value) 를 평가하면, 결측 패턴으로 인한 분포 이동 (Distribution Shift) 이 발생하여 모달리티의 실제 가치를 과대 또는 과소 평가하게 됩니다. 이는 실제 배포 시 잘못된 데이터 수집 결정으로 이어질 수 있습니다.

2. 방법론 (Methodology)

저자들은 이 문제를 해결하기 위해 ICYM2I (In Case You Multimodal Missed It) 라는 프레임워크를 제안합니다. 이 프레임워크는 역확률 가중치 (Inverse Probability Weighting, IPW) 를 기반으로 하여, 결측으로 인한 분포 이동을 보정하고 편향 없는 정보성 평가를 가능하게 합니다.

핵심 가정 및 접근법

가정 (Assumption B): 결측 메커니즘이 MAR (Missing At Random) 일 것이라고 가정합니다. 즉, 결측 여부는 관측된 공변량 (Covariates, $C$ ) 에만 의존하며, 관측되지 않은 변수에는 의존하지 않습니다. 이는 기존 연구에서 흔히 가정하는 MCAR (Missing Completely At Random) 보다 더 현실적인 가정입니다.
이중 보정 (Double Correction): ICYM2I 는 모델의 학습 (Training) 과 평가 (Evaluation) 모두에서 IPW 를 적용합니다.
1. 학습 보정: 관측된 데이터 ( $\Omega_{obs}$ ) 에서 손실 함수를 계산할 때, 각 샘플이 관측될 확률 (Propensity Score) 의 역수를 가중치로 사용하여, 실제 분포 ( $\Omega$ ) 를 추론하도록 모델을 학습시킵니다.
2. 평가 보정: 모델의 성능 지표 (예: AUROC) 나 정보 이론적 측정을 계산할 때도 동일한 가중치를 적용하여, 관측된 분포가 아닌 실제 타겟 분포에서의 성능을 추정합니다.

ICYM2I-PID (Partial Information Decomposition)

다중 모달 데이터의 정보 기여도를 정량화하기 위해 부분 정보 분해 (PID) 기법을 사용합니다.

기존 PID 방법은 관측된 데이터 분포를 기반으로 계산되므로 결측 시 편향됩니다.
ICYM2I-PID 는 IPW 를 적용하여 상호 정보량 (Mutual Information) 계산을 보정하고, Sinkhorn-Knopp 알고리즘을 변형하여 보정된 단모달 (Unimodal) 분포와 일치하도록 제약 조건을 설정합니다.
이를 통해 각 모달리티가 제공하는 공유 정보 (Shared), 고유 정보 (Unique), 상호 보완적 정보 (Complementary) 를 결측이 없는 상태와 동일한 기준으로 추정합니다.

3. 주요 기여 (Key Contributions)

결측에 의한 분포 이동의 공식화: 다중 모달 학습에서 결측이 내재적인 분포 이동 (Distribution Shift) 을 유발하며, 이를 무시할 경우 모달리티의 예측 성능과 정보 이론적 유용성 추정이 편향됨을 수학적으로 증명했습니다.
ICYM2I 프레임워크 제안: MAR 가정 하에서, 학습과 평가 단계 모두에 IPW 를 적용하여 편향 없는 정보성 추정을 가능하게 하는 새로운 프레임워크를 제시했습니다. 이는 단순히 성능을 높이는 것이 아니라, 모달리티의 실제 가치를 정확히 측정하는 데 초점을 맞춥니다.
다양한 데이터셋에서의 검증: 합성 데이터 (Synthetic), 준합성 데이터 (Semi-synthetic, UR-FUNNY, Hateful Memes), 그리고 실제 의료 데이터 (Structural Heart Disease) 를 통해 제안된 방법의 유효성과 일반화 능력을 입증했습니다.

4. 실험 결과 (Results)

합성 데이터 (Bitwise Logic): AND, OR, XOR 연산 실험에서 결측을 보정하지 않은 경우 (Observed) 는 특정 모달리티의 고유 정보 (Unique Information) 를 과대평가하거나 과소평가하는 경향을 보였습니다. 반면 ICYM2I 는 오라클 (Oracle, 완전한 데이터) 과 매우 유사한 정보 분해 값을 복원했습니다.
준합성 데이터 (UR-FUNNY, Hateful Memes): 텍스트, 오디오, 이미지 등 다양한 모달리티에 대해 70% 까지 결측을 인위적으로 발생시켰을 때, ICYM2I 는 관측된 데이터만 사용한 방법보다 오라클 성능에 훨씬 근접한 AUROC 및 PID 값을 보여주었습니다.
실제 의료 데이터 (Structural Heart Disease Detection):
- 상황: 심초음파 (TTE) 가 표준 진단 도구이나, 심전도 (ECG) 와 함께 흉부 X 선 (CXR) 이 체계적으로 수집되지 않아 CXR 에 결측이 발생하는 상황.
- 발견: 기존 방법 (Observed) 은 CXR 이 심부전 진단에 약 5% 의 고유 정보를 제공한다고 잘못 추정한 반면, ICYM2I 를 적용한 결과 CXR 의 고유 정보 기여도는 1.8% 로 크게 감소했습니다.
- 의미: 이는 CXR 이 ECG 와 공유하는 정보 (Shared Information) 가 대부분이며, CXR 단독으로는 진단에 큰 추가 가치가 없음을 시사합니다. 결측을 보정하지 않으면 불필요한 데이터 수집 비용이 발생할 수 있음을 보여줍니다.

5. 의의 및 결론 (Significance & Conclusion)

이 논문은 다중 모달 학습 분야에서 결측치 (Missingness) 가 단순한 기술적 문제가 아니라, 모델의 정보성 평가에 치명적인 편향을 일으키는 핵심 요소임을 강조합니다.

실무적 함의: 배포 환경에서 특정 모달리티의 가치를 판단할 때, 단순히 훈련 데이터에서의 성능 향상만 보는 것은 위험할 수 있습니다. ICYM2I 와 같은 보정 기법을 통해 실제 분포에서의 정보 가치를 정확히 평가해야 불필요한 데이터 수집 비용과 모델 복잡성을 피할 수 있습니다.
한계점: 현재 방법은 MAR 가정에 의존하며, MNAR (Missing Not At Random) 상황에서는 이론적 보장이 없습니다. 또한, 두 개의 모달리티에 대한 부분 정보 분해 (PID) 에 초점을 맞추고 있어, 더 많은 모달리티로 확장하는 것은 여전히 과제로 남아있습니다.

결론적으로, ICYM2I 는 결측치가 존재하는 현실적인 환경에서 다중 모달 모델의 진정한 가치를 평가하고, 데이터 수집 전략을 수립하는 데 필수적인 도구로 작용할 것입니다.