Multimodal Explainability via Latent Shift applied to COVID-19 stratification

Each language version is independently generated for its own context, not a direct translation.

🏥 1. 문제 상황: "흑상자 (Black Box)"와 "한쪽 눈"으로 보는 의사들

지금까지 의료 인공지능 (AI) 은 주로 한 가지 정보만 보고 판단했습니다.

이미지 AI: 엑스레이 사진만 보고 "폐가 나빠요"라고 말함.
데이터 AI: 환자의 나이, 혈압, 당뇨 여부 같은 표 (테이블) 데이터만 보고 "위험해요"라고 말함.

하지만 실제 의사는 엑스레이 사진과 환자의 병력 데이터를 모두 보고 종합적으로 판단합니다. 그런데 기존 AI 들은 이 두 가지를 따로따로만 다뤘습니다.

더 큰 문제는, AI 가 "환자가 위험하다"고 했을 때 **"왜?"**라고 물으면 대답을 못 한다는 거예요. 마치 **비밀스러운 흑상자 (Black Box)**처럼, 결과만 내놓고 그 이유는 알려주지 않는 거죠. 환자와 의사는 "왜 그렇게 판단했는지"를 모르면 AI 를 신뢰하기 어렵습니다.

🛠️ 2. 이 논문의 해결책: "양쪽 눈을 모두 쓰는 AI" + "이유 설명기"

이 연구팀은 두 가지 혁신을 제안합니다.

① 두 가지 정보를 한 번에 배우는 AI (멀티모달 학습)

이 새로운 AI 는 엑스레이 사진과 환자 데이터 (표) 를 동시에 공부합니다. 마치 의사가 엑스레이를 보면서도 "아, 이 환자는 당뇨가 있으니까 폐렴이 더 위험하겠구나"라고 생각하며 두 정보를 연결하는 것과 같습니다.

② "만약에..."라고 상상하게 만드는 설명기 (잠재 공간 이동)

이게 이 논문의 가장 창의적인 부분입니다. AI 가 "이 환자는 중증 위험군이다"라고 판단했을 때, 왜 그런지 알려주는 방법입니다.

비유: "만약에..." 게임 (Counterfactual)

AI 가 환자를 "중증 위험"으로 분류했을 때, AI 는 속으로 이렇게 생각합니다.
*"만약 이 환자의 엑스레이 사진에서 흰색 그림자가 사라지고, 혈압 수치가 조금만 낮아진다면? 그럼 내가 '중증'이 아니라 '경증'이라고 판단할까?"*

AI 는 실제로 그런 상황을 **가상 (Counterfactual)**으로 만들어 봅니다.

"엑스레이의 흰 그림자를 조금만 지우면 결과가 바뀌네? → 아, 이 그림자가 결정적이었구나!"

"혈압 수치를 바꾸면 결과가 안 바뀌네? → 아, 혈압은 별로 중요하지 않았구나."

이렇게 **"무엇을 조금만 바꿔야 결과가 달라지는가?"**를 찾아내는 과정을 통해, AI 는 **"엑스레이의 이 부분이 가장 중요했고, 환자의 이 수치가 결정적이었습니다"**라고 의사와 환자에게 설명해 줍니다.

📊 3. 실험 결과: 의사와 AI 가 "눈을 맞추다"

연구팀은 이 AI 를 실제 코로나19 환자 데이터 (AIforCOVID 데이터셋) 로 테스트했습니다.

성능: 엑스레이만 보는 AI 나 데이터만 보는 AI 보다, 두 가지를 다 보는 AI 가 더 정확하게 환자를 분류했습니다.
신뢰도 (가장 중요!): 연구팀은 전문 방사선사 4 명을 모시고 실험을 했습니다.
- AI 가 "이 엑스레이의 이 부분이 중요해"라고 표시했을 때, **실제 의사들도 "맞아, 이 부분이 중요해"**라고 동의했습니다.
- AI 가 "엑스레이보다 환자 데이터가 더 중요해"라고 했을 때, 의사들도 "그렇다"고 공감했습니다.

즉, AI 가 내린 결론의 이유가 인간의 전문가와 거의 똑같았다는 뜻입니다.

🎯 4. 왜 이것이 중요한가? (일상적인 비유)

이 기술을 스마트 내비게이션에 비유해 볼까요?

기존 AI: "목적지까지 30 분 걸립니다." (결과만 알려줌. 왜 30 분인지, 어떤 길이 막혔는지 모름)
이 논문의 AI: "목적지까지 30 분 걸립니다. 왜냐하면 A 도로에 사고가 났고 (엑스레이 정보), 그리고 지금 비가 와서 속도가 느려졌기 때문 (데이터 정보) 입니다. 만약 A 도로 사고가 없다면 20 분에 갈 수 있어요."

의사들은 이제 AI 가 "왜" 그렇게 판단했는지 알 수 있으므로, AI 의 조언을 더 신뢰하고 환자 치료에 활용할 수 있게 됩니다.

💡 5. 결론

이 논문은 **"AI 가 의사처럼 두 가지 정보 (사진 + 데이터) 를 동시에 보고, 그 이유를 '만약에'라는 상상을 통해 설명해 주는 시스템"**을 만들었습니다.

이 시스템은 단순히 "환자가 위험하다"고 말하는 것을 넘어, **"어떤 부분 때문에 위험하다고 판단했는지"**를 엑스레이 사진과 숫자로 시각적으로 보여줍니다. 이는 의료 현장에서 AI 가 '검은 상자'가 아닌, 의사들의 믿을 수 있는 파트너가 되는 첫걸음이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

단일 모달리티의 한계: 의료 인공지능 (AI) 분야에서 딥러닝 모델은 주로 단일 데이터 모달리티 (예: 영상 데이터만 또는 임상 데이터만) 를 사용하여 진단 및 예후를 예측합니다. 그러나 실제 의료 진단은 영상 (CXR, CT 등) 과 임상 데이터 (혈액 검사, 병력 등) 를 포함한 다중 모달리티 (Multimodal) 정보를 종합적으로 분석해야 합니다.
설명 가능성 (Explainability) 의 부재: 기존 다중 모달리티 딥러닝 모델은 높은 성능을 내지만 '블랙박스' 성격을 띠고 있어, 왜 특정 결정을 내렸는지에 대한 설명이 부족합니다. 의료 분야에서는 의사들의 신뢰를 얻기 위해 모델의 결정 근거를 명확히 설명할 수 있어야 합니다.
현황: COVID-19 예후 예측과 같은 의료 분야에서 다중 모달리티 데이터를 활용하면서도, 각 모달리티의 중요도와 개별 특징이 결정에 어떻게 기여했는지를 설명할 수 있는 다중 모달리티 설명 가능성 (MXAI, Multimodal XAI) 연구는 거의 존재하지 않습니다.

2. 제안된 방법론 (Methodology)

저자들은 **내재적 설명 가능성 (Intrinsic Explainability)**을 갖춘 새로운 엔드 - 투 - 엔드 (End-to-End) 다중 모달리티 아키텍처를 제안합니다.

A. 모델 아키텍처 (Joint Learning Architecture)

구성 요소:
1. Tabular Autoencoder (AE): 임상 데이터 (표 형식) 를 입력받아 잠재 벡터 ( $h_T$ ) 로 인코딩하고 재구성합니다.
2. Convolutional Autoencoder (CAE): 영상 데이터 (CXR) 를 입력받아 잠재 벡터 ( $h_I$ ) 로 인코딩하고 재구성합니다.
3. Classifier (CMLP): 두 잠재 벡터를 결합한 다중 모달리티 임베딩 ( $h = [h_T, h_I]$ ) 을 입력받아 COVID-19 중증도 분류 (경증/중증) 를 수행합니다.
학습 목표: 재구성 손실 (Reconstruction Loss) 과 분류 손실 (Classification Loss) 을 동시에 최소화하여, 분류에 유용한 특징을 추출하면서도 원본 데이터를 잘 복원할 수 있는 잠재 공간을 학습합니다.

B. 학습 전략 (Three-stage Training)

모델의 수렴을 돕기 위해 3 단계 학습 절차를 따릅니다:

단계 1: AE 만 학습 (영상 재구성 무시).
단계 2: CAE 만 학습 (임상 데이터 재구성 무시).
단계 3: AE, CAE, 분류기 전체를 함께 학습 (모든 손실 함수 동시 최적화).
이 방식은 분류기를 위한 초기 가중치를 최적의 잠재 표현으로 설정하여 성능을 향상시킵니다.

C. 설명 방법론: 잠재 공간 이동 (Latent Shift)

모델이 학습된 후, 잠재 공간 이동 (Latent Shift) 기법을 사용하여 반사실적 (Counterfactual) 설명을 생성합니다.

원리: 분류기의 출력 레이블이 반전되도록 (예: 중증 $\to$ 경증) 잠재 벡터 ( $h$ ) 를 기울기 (Gradient) 방향으로 이동시킵니다 ( $h_\lambda = h - \lambda \frac{\partial CMLP(h)}{\partial h}$ ).
모달리티 중요도 (Modality Importance): 이동된 잠재 벡터 ( $h_\lambda$ ) 와 원본 벡터 ( $h$ ) 간의 차이 ( $\Delta_T, \Delta_I$ ) 를 계산하여, 분류 결정에 각 모달리티 (임상 데이터 vs 영상) 가 얼마나 기여했는지 정량화합니다.
특징 중요도 (Feature Importance): 이동된 잠재 벡터를 통해 재구성된 데이터 ( $\hat{x}_\lambda$ $\overset{x}{^}_{λ}$ ) 와 원본 재구성 데이터 ( $\hat{x}$ $\overset{x}{^}$ ) 의 차이를 분석합니다.
- 임상 데이터: 어떤 임상 변수가 가장 크게 변화했는지 확인.
- 영상 데이터: 이미지 내 어떤 픽셀 영역 (Heatmap) 이 결정에 가장 큰 영향을 미쳤는지 시각화.

3. 주요 기여 (Key Contributions)

내재적 설명 가능한 다중 모달리티 아키텍처 개발: 분류와 재구성을 동시에 학습하여, 분류 결과에 대한 설명을 모델 내부에서 자연스럽게 도출하는 구조를 설계했습니다.
공동 학습 (Joint Learning) 접근법: 임상 데이터와 영상 데이터를 동시에 사용하여 재구성과 분류를 수행하는 새로운 학습 방식을 도입했습니다.
새로운 잠재 공간 반사실적 (Counterfactual) 방법론: 단일 모달리티와 다중 모달리티 맥락 모두에서 적용 가능한 새로운 설명 기법을 제안하여, 결정 과정에 기여한 주요 모달리티와 특징을 식별합니다.
COVID-19 중증도 예측에의 적용 및 검증: 공개된 AIforCOVID 데이터셋을 활용하여 COVID-19 환자의 중증도 위험을 조기에 식별하는 데 성공적으로 적용했습니다.
전문가 검증 (Reader Study): 4 명의 전문 방사선 의사를 대상으로 한 연구를 통해, 제안된 모델의 설명이 인간 전문가의 판단과 높은 일치도를 보이며 분류 성능을 저하시키지 않음을 입증했습니다.

4. 실험 결과 (Results)

데이터셋: 이탈리아 6 개 병원에서 수집된 820 명의 COVID-19 환자 데이터 (CXR 영상 + 임상 데이터).
분류 성능:
- 제안된 모델은 기존 단일 모달리티 모델이나 단일 학습 (One-stage) 방식보다 우수한 성능을 보였습니다.
- 10-fold 교차 검증 (CV) 에서 정확도 약 76.75%, LOCO(Leave-One-Center-Out) 검증에서 약 **74.21%**를 기록하여 기존 최고 성능 (Baseline) 과 통계적으로 유의미한 차이가 없거나 더 좋은 성능을 보였습니다.
- 인간 전문가 (방사선 의사) 와 비교 시, 제안된 모델은 더 높은 민감도 (Sensitivity) 를 보였습니다.
재구성 성능: AE 와 CAE 의 재구성 오차 (MSE) 가 매우 낮아, 모델이 데이터의 핵심 특징을 잘 포착하고 있음을 확인했습니다.
설명 가능성 검증 (Sanity Check):
- 모달리티 중요도: 제안된 모델이 산출한 모달리티 중요도 ( $\Delta_T, \Delta_I$ ) 와 방사선 의사의 평가 간 상관관계 (Pearson correlation) 가 높았습니다.
- 특징 중요도: 모델이 강조한 임상 변수와 영상 영역이 방사선 의사가 중요하게 여긴 영역과 높은 IoU (Intersection over Union) 값을 보였습니다 (영상 IoU 평균 약 62.75%).
- 기존 단일 모달리티 XAI 기법 (Integrated Gradients, LIME, SHAP) 과 비교해도 설명의 일관성이 유사하거나 더 뛰어났습니다.
Ablation Study: 한 모달리티만 사용할 경우 성능이 유의미하게 저하되었으며, 설명의 일관성은 유지되었으나 다중 모달리티 접근의 필요성이 입증되었습니다.

5. 의의 및 결론 (Significance & Conclusion)

신뢰할 수 있는 의료 AI: 이 연구는 의료 AI 모델이 '왜' 그 결정을 내렸는지 설명할 수 있게 함으로써, 의사들의 신뢰를 얻고 임상 현장에 도입되는 데 필수적인 요소인 투명성을 확보했습니다.
다중 모달리티 설명의 선구자: 의료 분야에서 단일 모달리티가 아닌, 영상과 임상 데이터를 통합하여 설명하는 최초의 체계적인 방법론 중 하나로 평가됩니다.
임상적 활용 가치: 모델이 강조하는 임상 지표와 영상 부위를 시각화함으로써, 방사선 의사가 환자의 예후를 판단할 때 집중해야 할 핵심 요소를 파악하는 데 도움을 줄 수 있습니다.
한계 및 향후 과제: 설명의 신뢰성은 모델의 분류 및 재구성 성능에 의존하며, 고수준의 개념 (Expert-based concepts) 을 직접 추출하지는 못한다는 한계가 있습니다. 향후 개념 지식 마이닝 (Concept Knowledge Mining) 등을 통해 이를 보완할 계획입니다.

요약하자면, 이 논문은 COVID-19 예후 예측을 위해 다중 모달리티 데이터를 통합 학습하고, 잠재 공간의 변화를 통해 그 결정 근거를 시각적·정량적으로 설명하는 혁신적인 AI 프레임워크를 제시하며, 높은 성능과 인간 전문가와의 높은 일치도를 통해 그 유효성을 입증했습니다.