The MAMA-MIA Challenge: Advancing Generalizability and Fairness in Breast MRI Tumor Segmentation and Treatment Response Prediction

Lidia Garrucho, Smriti Joshi, Kaisar Kushibar, Richard Osuala, Maciej Bobowicz, Xavier Bargalló, Paulius Jaruševičius, Kai Geissler, Raphael Schäfer, Muhammad Alberb, Tony Xu, Anne Martel, Daniel Sleiman, Navchetan Awasthi, Hadeel Awwad, Joan C. Vilanova, Robert Martí, Daan Schouten, Jeong Hoon Lee, Mirabela Rusu, Eleonora Poeta, Luisa Vargas, Eliana Pastor, Maria A. Zuluaga, Jessica Kächele, Dimitrios Bounias, Alexandra Ertl, Katarzyna Gwoździewicz, Maria-Laura Cosaka, Pasant M. Abo-Elhoda, Sara W. Tantawy, Shorouq S. Sakrana, Norhan O. Shawky-Abdelfatah, Amr Muhammad Abdo-Salem, Androniki Kozana, Eugen Divjak, Gordana Ivanac, Katerina Nikiforaki, Michail E. Klontzas, Rosa García-Dosdá, Meltem Gulsun-Akpinar, Oğuz Lafcı, Carlos Martín-Isla, Oliver Díaz, Laura Igual, Karim Lekadir

게시일 2026-03-03

📖 3 분 읽기☕ 가벼운 읽기

보기: arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

🏥 1. 배경: 왜 이 대회가 필요했을까요?

지금까지 유방암을 진단하는 AI 는 주로 한 병원의 데이터만 보고 공부했습니다. 마치 "서울의 날씨만 보고 전국의 날씨를 예측하는 기상 예보관"과 비슷합니다.

문제점: 서울에서 잘 작동하던 예보관이 강원도나 제주도에서는 빗나갈 수 있죠. 또한, 젊은 여성과 노년 여성, 혹은 유방 밀도가 다른 여성에게 똑같이 잘 작동할지도 의문입니다.
해결책: 그래서 연구진들은 미국 여러 병원에서 데이터를 모으고 (학습), **유럽의 세 개 병원 (시험)**에서 그 AI 를 시험해 보는 대회를 열었습니다. 마치 "서울에서 배운 운전 실력을 유럽의 도로에서 시험해 보는 것"과 같습니다.

🎯 2. 대회의 두 가지 주요 미션

참가자들은 AI 에게 두 가지 임무를 주었습니다.

미션 1: 유방암 종양 찾기 (세그멘테이션)
- 비유: MRI 사진 속에서 암 덩어리를 색칠하기 작업입니다. "여기가 암이야, 여기는 정상 조직이야"라고 정확히 구분해 내는 것입니다.
- 결과: AI 들이 이 작업을 꽤 잘해냈습니다. 특히 종양이 크고 뚜렷할 때는 인간 전문가 못지않게 잘 구분했습니다. 하지만 종양이 너무 작거나, 주변 조직과 구분이 안 될 때는 여전히 실수가 많았습니다.
미션 2: 치료 반응 예측 (pCR 예측)
- 비유: 수술 전에 "이 약을 먹으면 암이 완전히 사라질까?"를 예측하는 것입니다.
- 결과: 이 부분은 매우 어려웠습니다. 대부분의 AI 가 "모르겠다"거나 "아마 안 사라지겠지"라고만 대답했습니다. 치료 전 MRI 만으로는 암이 완전히 사라질지 예측하는 것이 생각보다 훨씬 복잡하다는 것이 드러났습니다.

⚖️ 3. 가장 중요한 발견: "공정성"의 중요성

이 대회의 가장 큰 특징은 성적 (정확도) 만 보는 게 아니라, '공정성'도 함께 점수 매겼다는 것입니다.

상황: 어떤 AI 는 전체 평균 점수는 높지만, 특정 연령대나 유방 밀도를 가진 환자에게는 엉망으로 작동할 수 있습니다.
비유: 시험을 볼 때, "전반적인 평균 점수는 90 점이지만, 남자 학생은 100 점, 여자 학생은 60 점"이라면 그 시험은 공정하지 않죠.
결과: 이 대회는 "평균 점수가 조금 낮더라도, 모든 그룹 (연령, 폐경 여부, 유방 밀도 등) 에게 골고루 잘 작동하는 AI"를 더 높은 점수로 평가했습니다.
- 그 결과, "특정 그룹만 잘 보는 AI"보다 "누구에게나 비슷하게 잘 보는 AI"가 상위 랭킹에 올랐습니다.

🏆 4. 대회의 결론과 교훈

종양 찾기는 잘하지만, 치료 예측은 아직 멀었습니다.
- AI 가 암을 찾는 기술은 많이 발전했지만, "약이 얼마나 잘 먹힐지"를 치료 전에 미리 알기는 여전히 매우 어렵습니다. 이는 AI 의 문제라기보다, 아직 우리가 암과 치료 반응을 이해하는 데 한계가 있기 때문입니다.
공정한 AI 가 진짜로 필요한 AI 입니다.
- 특정 환자 집단에게만 잘 작동하는 AI 는 위험할 수 있습니다. 이 대회는 "누구에게나 똑같이 잘 작동하는 AI"를 만드는 것이 얼마나 중요한지 보여줬습니다.
데이터의 다양성이 핵심입니다.
- 한 곳의 데이터만으로는 부족합니다. 미국, 유럽 등 다양한 지역과 다양한 환자 그룹의 데이터를 섞어야 진짜로 쓸모 있는 AI 를 만들 수 있습니다.

💡 요약하자면

이 논문은 **"우리가 만든 AI 가 특정 환자만 잘 보고, 다른 환자는 무시하지 않는지 확인하는 거대한 시험"**이었습니다.

그 결과, 암을 찾는 기술은 꽤 훌륭해졌지만, 치료 효과를 미리 예측하는 것은 아직 요원하며, 무엇보다 '모든 사람에게 공평한 AI'를 만드는 것이 미래의 핵심이라는 교훈을 남겼습니다. 마치 "모든 운전자가 안전하게 운전할 수 있도록, 비가 오든 눈이 오든, 초보든 베테랑이든 똑같이 잘 작동하는 자율주행 시스템을 만드는 것"과 같은 목표입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

유방암은 전 세계 여성에게서 가장 빈번하게 진단되는 악성 종양이며, 치료 반응 모니터링에 동적 조영증강 자기공명영상 (DCE-MRI) 이 핵심적인 역할을 합니다. 특히 신보조 화학요법 (NAC) 후 병리학적 완전 반응 (pCR) 을 예측하는 것은 장기적인 예후를 판단하는 중요한 지표입니다.

그러나 기존 인공지능 (AI) 모델들은 다음과 같은 한계를 가지고 있습니다:

단일 기관 데이터 의존성: 대부분의 연구가 단일 기관의 동질적인 데이터로 개발되어, 다른 의료기기 벤더, 촬영 프로토콜, 지리적 지역으로의 일반화 (Generalization) 능력이 부족합니다.
공정성 (Fairness) 평가 부재: 연령, 폐경 상태, 유방 밀도 등 인구통계학적 및 생물학적 요인이 MRI 화상과 종양 가시성에 영향을 미치지만, 기존 평가는 전체 평균 성능 지표에 의존하여 하위 집단 간의 성능 편차를 숨겨버리는 경우가 많습니다.
임상적 신뢰성 부족: 이러한 편향과 일반화 부족은 AI 시스템의 임상적 안전성과 형평성에 대한 우려를 야기합니다.

2. 방법론 (Methodology)

A. 벤치마크 설계 (Benchmark Design)

MAMA-MIA 챌린지는 DCE-MRI 를 이용한 유방암 분석을 위한 대규모 벤치마크로, 두 가지 주요 과제를 동시에 평가합니다:

과제 1 (Task 1): 원발성 유방 종양의 자동 분할 (Segmentation).
과제 2 (Task 2): 치료 전 MRI 만을 이용한 병리학적 완전 반응 (pCR) 예측.

데이터 구성:
- 학습 데이터: 미국 내 25 개 기관에서 수집된 1,506 명의 환자 데이터 (MAMA-MIA 데이터셋, ISPY-1/2, NACT, DUKE 등 포함).
- 검증/테스트 데이터: 스페인, 폴란드, 리투아니아의 3 개 독립적인 유럽 기관에서 수집된 574 명의 환자 데이터 (외부 테스트셋). 이는 대륙 간 및 기관 간 일반화 능력을 평가하기 위해 설계되었습니다.
평가 프레임워크:
- 통합 점수 체계: 예측 성능 ( $S_p$ ) 과 하위 집단 간 일관성 (공정성, $S_f$ ) 을 결합한 복합 점수를 사용합니다.
  $S = (1 - \lambda)S_p + \lambda S_f$
  여기서 $\lambda=0.5$ 로 설정하여 정확도와 공정성에 동등한 가중치를 두었습니다.
- 공정성 변수: 연령, 폐경 상태, 유방 밀도를 기준으로 하위 집단 (Subgroup) 을 정의하고, 각 집단 간 성능 편차 (Disparity) 를 최소화하는 것을 목표로 합니다.

B. 참여 방법론 (Participating Methods)

총 26 개의 국제 팀이 최종 평가에 참여했습니다.

분할 (Task 1): 대부분의 상위 팀이 3D nnU-Net 변형 아키텍처를 사용했으며, 일부는 3D Vision Transformer 를 도입했습니다. 다중 DCE 위상 (phases) 을 입력으로 활용하거나, 자기지도학습 (Self-supervised learning) 을 통한 사전 학습, 앙상블 기법, 그리고 하위 집단 성능 편차를 직접 손실 함수에 반영하는 공정성 인식 (Fairness-aware) 전략을 사용했습니다.
pCR 예측 (Task 2): 병변 중심의 3D 분류 파이프라인, 분할 모델에서 추출한 특징을 활용한 분류기 (XGBoost 등), 그리고 다중 위상 데이터를 처리하는 시계열 모델 등이 시도되었습니다.

3. 주요 기여 (Key Contributions)

대규모 벤치마크: 유방 DCE-MRI 에 대한 종양 분할과 pCR 예측을 동시에 평가하는 최초의 대규모 표준 벤치마크를 구축했습니다.
공정성 인식 평가 프로토콜: 연령, 폐경 상태, 유방 밀도에 따른 성능 일관성을 정량화하는 평가 프레임워크를 제안하여, 평균 성능만으로는 보이지 않는 편향을 드러냈습니다.
종합적 비교 분석: 제출된 방법들에 대한 심층 분석을 통해 모델 설계 트렌드, 일반화 행동, 그리고 정확도 - 공정성 트레이드오프 (Trade-off) 를 규명했습니다.
재현 가능한 리소스: 데이터셋, 평가 코드, 보고 가이드라인을 공개하여 견고하고 형평성 있는 AI 시스템 개발을 촉진합니다.

4. 결과 (Results)

A. 종양 분할 (Task 1)

성능: 상위 5 개 팀은 베이스라인 (nnU-Net) 대비 DSC(Dice Similarity Coefficient) 에서 0.43~4.89% 의 개선을 보였으며, 공정성 점수도 약 2% 향상되었습니다.
일반화: 외부 테스트셋 (유럽) 에서도 견고한 성능을 보였으나, 작은 종양, 비종양성 (non-mass) 병변, 조영 대비가 낮은 경우에서는 성능이 저하되었습니다.
공정성: 상위 팀들은 연령, 폐경 상태, 유방 밀도에 따른 하위 집단 간 성능 편차가 거의 없었으며, 모든 집단에서 일관된 높은 성능을 유지했습니다.

B. pCR 예측 (Task 2)

성능: 치료 전 MRI 만으로 pCR 을 예측하는 것은 매우 어려웠습니다. 상위 3 개 팀은 베이스라인 (무작위 분류) 대비 성능 점수에서 큰 개선을 보이지 않았으며, 통계적으로 유의미한 차이를 보인 팀은 단 한 팀 (PM) 뿐이었습니다.
공정성과의 트레이드오프: 높은 성능을 보인 팀은 하위 집단 간 편차가 컸고, 공정성을 고려한 팀은 상대적으로 낮은 성능을 보였습니다. 공정성 점수를 높게 반영할수록 리더보드 순위가 크게 변동되었습니다.
한계: 대부분의 모델이 pCR(소수 클래스) 에 대한 재현율 (Recall) 이 낮았으며, 예측 확률의 보정 (Calibration) 이 부족하여 과도한 자신감 (Overconfidence) 을 보였습니다.

5. 의의 및 결론 (Significance and Conclusion)

임상적 성숙도 격차: 유방 MRI 종양 분할은 다중 기관 환경에서도 견고하게 작동할 준비가 되었으나, 치료 전 pCR 예측은 단일 기관 연구에서 보고된 성과와 달리 다중 기관 환경에서는 아직 임상 적용에 불충분한 수준임을 확인했습니다.
공정성의 중요성: 공정성 평가는 단순히 "공정한" 모델을 찾는 것을 넘어, 모델이 특정 하위 집단에서 실패할 위험을 식별하고, 정확도와 형평성 사이의 균형을 고려한 의사결정을 지원합니다.
미래 방향:
- pCR 예측의 정확도 향상을 위해서는 이진 분류를 넘어 종양 부피 변화와 같은 연속적인 목표 변수로 전환하고, 치료 중/후의 종단적 (Longitudinal) 영상 데이터를 통합해야 합니다.
- 분할과 예측 태스크를 결합한 멀티태스크 학습 및 불확실성 인식 (Uncertainty-aware) 모델링이 필요합니다.
- 대규모 자기지도학습 (SSL) 과 같은 선진 기법과 함께, 분자적 표지자 (Ki-67 등) 와 치료 변수를 통합한 다중 모달 접근이 필수적입니다.

결론적으로, MAMA-MIA 챌린지는 유방암 영상 AI 의 발전 방향을 단순한 정확도 경쟁에서 **견고성 (Robustness), 형평성 (Fairness), 그리고 임상적 실용성 (Clinical Relevance)**을 모두 고려한 방향으로 전환시키는 중요한 이정표가 되었습니다.