Addressing Missing and Noisy Modalities in One Solution: Unified Modality-Quality Framework for Low-quality Multimodal Data

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"불완전하고 더러운 데이터로 만든 인공지능을 어떻게 똑똑하게 만들까?"**라는 질문에 대한 해답을 제시합니다.

기존의 인공지능 연구들은 데이터가 '빠진 경우 (Missing)'와 '소음이 섞인 경우 (Noisy)'를 따로따로 해결하려고 노력했습니다. 하지만 현실 세계에서는 두 문제가 동시에 발생하는 경우가 많습니다. 예를 들어, 카메라는 고장 났는데 (빠진 데이터), 마이크는 바람 소리가 너무 크게 잡혔을 때 (소음 데이터) 처럼요.

저자들은 이 두 문제를 하나로 묶어 해결하는 **'UMQ (Unified Modality-Quality)'**라는 새로운 시스템을 개발했습니다. 이를 쉽게 이해할 수 있도록 **'요리사'**와 **'식재료'**에 비유해 설명해 드릴게요.

🍳 비유: 나쁜 식재료를 요리하는 천재 요리사

상상해 보세요. 여러분은 훌륭한 요리사 (인공지능 모델) 입니다. 하지만 손님이 가져온 식재료 (데이터) 는 다음과 같은 문제점이 있습니다.

빠진 재료: 양파가 아예 없습니다.
상한/더러운 재료: 고기는 비린내가 심하고, 채소는 흙이 묻어 있습니다.

기존의 요리사들은 "양파가 없으면 양파를 만들어서 넣자"거나 "비린내만 제거하자"라고 따로따로 해결했습니다. 하지만 이 새로운 요리사 (UMQ) 는 "모든 식재료의 상태를 먼저 진단하고, 상황에 맞춰 최고의 요리를 해내는" 방식을 사용합니다.

🛠️ UMQ 시스템의 3 단계 작동 원리

이 시스템은 크게 세 가지 핵심 도구로 작동합니다.

1. 식재료 상태 진단사 (Quality Estimator)

역할: 들어온 모든 식재료 (데이터) 가 얼마나 깨끗하고 좋은지 점수를 매깁니다.
특이점: "이 고기는 100 점이다"라고 절대적인 점수를 매기는 게 아니라, **"이 고기는 저 고기보다 더럽다, 이 채소는 저 채소보다 신선하다"**라고 **비교 (순위)**를 통해 점수를 매깁니다.
왜 중요할까요? 절대적인 점수를 매기면 "얼마나 더러운가?"를 정확히 알기 어렵고 오해가 생길 수 있습니다. 하지만 서로 비교하면 "어느 것이 더 나쁜지"를 훨씬 정확하게 파악할 수 있습니다.

2. 식재료 복원 및 정화 요리사 (Quality Enhancer)

역할: 상태가 나쁜 식재료를 다른 좋은 재료들과 결합해서 다시 맛있게 만듭니다.
방법:
- 다른 재료의 도움: 양파가 없다면, 고기의 향과 채소의 향을 분석해서 양파가 있어야 할 자리에 가장 적합한 맛을 채워 넣습니다.
- 기본 레시피 (Modality Baseline): 각 재료 (언어, 소리, 영상) 가 원래 가져야 할 '기본적인 맛 (전체적인 분포)'을 기억하고 있습니다. 이 기본 레시피를 참고해서, 더러운 식재료에서 원래의 맛을 찾아냅니다.
결과: 빠진 재료는 다른 재료의 정보를 빌려와서 채우고, 더러운 재료는 깨끗하게 정제되어 다시 요리대에 올라갑니다.

3. 상황별 전문가 팀 (MQ-MoE)

역할: 모든 요리가 똑같은 방식으로 만들어지면 안 됩니다. 식재료의 상태 (빠짐, 소음, 깨끗함) 에 따라 다른 전문가가 요리를 해야 합니다.
작동 방식:
- "양파가 없고 고기가 더러운 경우" → A 팀 전문가가 요리합니다.
- "소리가 잘 안 들리고 영상이 흐릿한 경우" → B 팀 전문가가 요리합니다.
- 시스템은 들어온 재료의 상태를 진단해서, 그 상황에 가장 적합한 전문가 팀을 자동으로 골라 요리를 시킵니다.
장점: 모든 상황을 한 가지 방법으로 처리하는 게 아니라, 상황에 맞춰 가장 적합한 방법을 선택하므로 훨씬 더 정확한 결과를 냅니다.

🏆 이 시스템이 가져온 성과

이 'UMQ' 시스템을 여러 가지 데이터 (감정 분석, 유머 감지, 풍자 감지 등) 로 테스트한 결과, 기존에 있던 최고의 방법들보다 훨씬 뛰어난 성능을 보였습니다.

데이터가 완전히 있을 때: 가장 좋은 요리 (정확한 예측) 를 냅니다.
데이터가 빠졌을 때: 다른 재료로 빈 공간을 훌륭하게 메꿉니다.
데이터가 더러웠을 때: 소음을 제거하고 원래의 맛을 되살립니다.

💡 결론

이 논문은 **"현실 세계의 데이터는 항상 불완전하고 더럽다"**는 사실을 인정하고, 이를 따로따로 고치는 게 아니라 하나의 통합된 시스템으로 상황에 맞춰 유연하게 대처해야 함을 보여줍니다.

마치 어떤 재료가 들어오든, 그 재료를 가장 잘 활용할 수 있는 요리사 팀을 구성해서 최고의 요리를 해내는 것과 같습니다. 덕분에 인공지능은 더 험한 현실 세계에서도 훨씬 더 튼튼하고 똑똑하게 작동할 수 있게 되었습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

실제 세계의 멀티모달 데이터 (텍스트, 오디오, 비디오 등) 는 종종 저품질 (Low-quality) 상태로 존재합니다. 이는 주로 두 가지 형태로 나타납니다.

누락된 모달리티 (Missing Modalities): 센서 고장, 장비 부재 등으로 인해 특정 모달리티 데이터가 아예 존재하지 않는 경우.
노이즈가 있는 모달리티 (Noisy Modalities): 배경 간섭, 센서 오차, 전송 오류 등으로 인해 데이터에 노이즈가 섞인 경우.

기존 연구들은 이 두 가지 문제를 별도로 (Separately) 처리하는 경향이 있었습니다. 그러나 실제 환경에서는 누락과 노이즈가 동시에 발생하는 경우가 많으며, 이를 분리하여 처리하면 모델의 강건성 (Robustness) 과 적용 범위가 제한됩니다. 따라서 본 논문은 누락된 모달리티를 노이즈의 특수한 형태 (노이즈 생성 패턴과 영향을 받는 모달리티가 알려진 경우) 로 간주하여, 하나의 통합 프레임워크로 동시에 해결하는 것을 목표로 합니다.

2. 제안 방법론: UMQ (Unified Modality-Quality Framework)

UMQ 는 저품질 멀티모달 데이터의 표현을 강화하기 위해 세 가지 핵심 구성 요소를 통합한 프레임워크입니다.

2.1 품질 추정기 (Quality Estimator) 및 순위 기반 학습 전략

목적: 각 모달리티의 표현 (Representation) 품질을 정량화하여 점수 ( $\alpha_m$ ) 를 산출합니다.
혁신적 접근: 기존 연구는 모달리티 품질에 대한 절대적 레이블 (Absolute Label) 을 사용하기 어려웠고, 이로 인해 학습 노이즈가 발생했습니다. UMQ 는 순위 기반 학습 전략 (Rank-guided Training Strategy) 을 도입합니다.
- 절대적인 품질 점수 대신, 서로 다른 표현 간의 상대적 품질 순위를 비교하도록 학습합니다.
- 고품질 (예: 예측 손실이 낮은) 과 저품질 (예: 가우스 노이즈가 추가된) 샘플을 명확히 구분하고, 그 사이의 샘플들에 대해서는 상대적 순위 손실 (Ranking Loss) 을 적용하여 학습 노이즈를 줄이고 추정기의 정확도를 높입니다.

2.2 품질 강화기 (Quality Enhancer)

목적: 저품질인 단일 모달리티 표현을 고품질로 복원/강화합니다.
메커니즘:
1. 모달리티 분리 (Modality Decoupling): 입력된 표현을 '샘플 고유 정보 (Sample-specific)'와 '모달리티 고유 정보 (Modality-specific)'로 분리합니다.
2. 모달리티 기준 표현 (Modality Baseline): 정의된 기준 표현을 통해 해당 모달리티의 전역적 분포와 고유한 특성을 학습합니다.
3. 강화 과정: 다른 모달리티에서 제공된 '샘플 고유 정보'와 정의된 '모달리티 기준 표현'을 활용하여, 기존 방법론들이 간과했던 모달리티 고유의 정보 (Modality-specific information) 를 포함하면서 표현의 품질을 향상시킵니다. 이는 단순히 다른 모달리티로 누락을 채우는 것을 넘어, 원래 모달리티의 특성을 유지하며 복원하는 것을 보장합니다.

23. 품질 인식 혼합 전문가 (MQ-MoE, Modality-Quality-aware Mixture-of-Experts)

문제: $|M|$ 개의 모달리티가 각각 고/저품질일 수 있으므로, $2^{|M|}$ 개의 다양한 품질 조합이 발생합니다. 단일 공유 예측기로는 이러한 조합 폭발 (Combinatorial Explosion) 을 처리하기 어렵습니다.
해결:
- 전문가 (Expert) 모듈: 각 모달리티 - 품질 조합 (예: 텍스트는 노이즈 있음, 오디오는 누락됨) 에 특화된 전문가 모듈을 설계합니다.
- 라우팅 메커니즘: 샘플의 품질 구성 (Quality Configuration) 에 따라 적절한 전문가 집합으로 라우팅합니다.
- 제약 조건: 동일한 품질 구성을 가진 샘플은 유사한 전문가에게 라우팅되도록 ( $L_{same}$ ), 서로 다른 구성은 다른 전문가를 사용하도록 강제하여 각 시나리오에 최적화된 처리를 가능하게 합니다.

3. 주요 기여 (Key Contributions)

통합 프레임워크: 누락된 모달리티와 노이즈가 있는 모달리티 문제를 하나의 통합 프레임워크 (UMQ) 로 해결하여 실제 환경에서의 모델 강건성을 크게 향상시켰습니다.
순위 기반 품질 추정: 절대적 레이블의 부재를 극복하기 위해 순위 기반 학습 전략을 도입하여, 모달리티 품질을 더 정확하게 추정하고 학습 노이즈를 제거했습니다.
정보 보존형 강화: 생성된 표현이 모달리티 고유의 정보를 잃지 않도록 '모달리티 기준 표현'과 '샘플 고유 정보'를 결합한 품질 강화기를 제안했습니다.
MQ-MoE 아키텍처: 다양한 모달리티 - 품질 조합을 유연하고 구체적으로 처리할 수 있도록 품질 인식 라우팅 메커니즘을 갖춘 혼합 전문가 구조를 설계했습니다.

4. 실험 결과 (Results)

UMQ 는 멀티모달 감정 분석 (MSA), 유머 감지 (MHD), 비꼬기 감지 (MSD) 작업에서 CMU-MOSI, CMU-MOSEI, CH-SIMS, UR-FUNNY, MUStARD 등 여러 데이터셋에서 평가되었습니다.

완전한 모달리티 (Complete Modalities): 누락이나 노이즈가 없는 상태에서도 SOTA(State-of-the-Art) 성능을 기록했습니다. (예: CMU-MOSI 에서 Acc7 49.7%, CMU-MOSEI 에서 Acc2 88.1% 등)
누락된 모달리티 (Missing Modalities): 누락률 (0.1~0.7) 이 증가하는 상황에서도 기존 최강 베이스라인 (GCNet, MoMKE 등) 을 일관되게 상회했습니다. 특히 누락률이 0.7(가장 극단적) 일 때도 높은 성능을 유지했습니다.
노이즈가 있는 모달리티 (Noisy Modalities): 가우스 노이즈뿐만 아니라 라플라스 노이즈, 랜덤 지우기 (Random Erasing) 등 훈련 중 보지 못한 노이즈 유형 (OOD) 에 대해서도 뛰어난 강건성을 입증했습니다.
생성된 표현의 시각화: t-SNE 시각화를 통해 UMQ 가 복원한 특징이 원본 특징과 더 가깝게 분포하며, 모달리티 고유 정보를 잘 보존함을 확인했습니다.

5. 의의 및 결론 (Significance)

이 논문은 멀티모달 학습 분야에서 데이터의 불완전성과 노이즈를 통합적으로 접근했다는 점에서 중요한 의미를 가집니다.

실용성: 실제 환경에서 흔히 발생하는 다양한 데이터 결손 및 노이즈 상황에 대해 별도의 모델 수정 없이 하나의 프레임워크로 대응 가능하게 하여 실용성을 높였습니다.
방법론적 발전: 절대적 레이블 없이 상대적 순위를 통해 품질을 학습하는 방식과, 모달리티 고유 정보를 보존하면서 표현을 강화하는 메커니즘은 향후 저품질 데이터 처리를 위한 새로운 패러다임을 제시합니다.
확장성: MQ-MoE 구조를 통해 모달리티의 수와 품질 조합이 증가하더라도 확장 가능하게 설계되었습니다.

결론적으로 UMQ 는 저품질 멀티모달 데이터 환경에서 모델의 성능과 신뢰성을 획기적으로 개선한 강력한 솔루션입니다.