VR-FuseNet: A Fusion of Heterogeneous Fundus Data and Explainable Deep Network for Diabetic Retinopathy Classification

Each language version is independently generated for its own context, not a direct translation.

1. 문제 상황: 왜 새로운 모델이 필요할까요?

당뇨병이 심해지면 눈의 미세 혈관이 손상되어 실명할 수 있습니다. 이를 조기에 발견하는 것이 가장 중요하지만, 기존에 있던 AI 들은 몇 가지 문제가 있었습니다.

편향된 학습: 특정 병원이나 카메라로 찍은 사진만 많이 봐서, 다른 환경의 사진을 보면 헷갈려 했습니다. (예: 한국인 얼굴만 보고 훈련된 AI 가 서양인 얼굴을 못 보는 것)
데이터 불균형: '정상' 사진은 많지만, '심각한 병' 사진은 너무 적어서 AI 가 병을 잘 못 찾았습니다.
블랙박스 문제: AI 가 "병이다"라고 말해도, "왜 병이라고 판단했는지" 그 이유를 설명해 주지 못해 의사가 믿기 어려웠습니다.

2. 해결책 1: "다양한 경험"을 쌓은 데이터 (하이브리드 데이터셋)

이 연구팀은 5 개의 서로 다른 공개 데이터셋 (APTOS, DDR, IDRiD 등) 을 모두 합쳐 **거대한 '하이브리드 데이터셋'**을 만들었습니다.

비유: 한 명의 학생이 한 학교의 시험지만 보고 공부하는 대신, 전 세계 5 개 학교의 다양한 시험지를 모두 모아 공부하게 한 것입니다.
효과: 이렇게 하면 AI 는 어떤 카메라로 찍었든, 어떤 조명 조건이든 상관없이 눈의 병변을 정확히 찾아낼 수 있는 '범용성'을 갖게 됩니다.

3. 해결책 2: 데이터 정제 (SMOTE 와 CLAHE)

데이터를 그대로 쓰기엔 문제가 있었습니다.

SMOTE (데이터 균형 맞추기): '정상' 사진은 많고 '심각한 병' 사진은 적어서 AI 가 병을 간과하기 쉽습니다. 연구팀은 SMOTE라는 기술을 써서 적은 병 사진들을 인위적으로 늘려주었습니다.
- 비유: 반에서 '수학 잘하는 학생'은 많고 '수학 못하는 학생'은 1 명뿐이라서 선생님이 수학을 가르칠 때 '잘하는 학생'만 보고 가르친다면 '못하는 학생'을 놓치게 됩니다. 그래서 '못하는 학생'의 유형을 분석해서 비슷한 학생들을 몇 명 더 만들어 반을 균형 있게 만든 것입니다.
CLAHE (사진 선명하게 하기): 눈 사진은 빛이 어둡거나 흐릿한 경우가 많습니다. CLAHE 기술을 써서 사진의 대비를 높여 병변 (출혈, 흰 반점 등) 이 선명하게 보이도록 했습니다.
- 비유: 안경이 흐릿하거나 어두운 사진을 선명하게 다듬어, 병변이 마치 돋보기로 본 것처럼 뚜렷하게 보이게 한 것입니다.

4. 해결책 3: 두 명의 천재가 팀을 이루다 (VR-FuseNet)

이 모델의 핵심은 VGG19와 ResNet50V2라는 두 가지 유명한 AI 모델을 합친 것입니다.

VGG19: 아주 작은 디테일 (미세한 혈관, 작은 출혈) 을 잘 보는 **'세밀함의 전문가'**입니다.
ResNet50V2: 전체적인 구조와 큰 그림을 잘 파악하는 **'맥락의 전문가'**입니다.
비유: 한 명은 "이곳에 작은 점 하나가 있어요"라고 말하고, 다른 한 명은 "전체적으로 이 부분이 이상해 보여요"라고 말합니다. 이 두 사람이 **팀 (Fusion)**을 이루어 의견을 합치면, 혼자 일할 때보다 훨씬 정확하고 신뢰할 수 있는 진단을 내릴 수 있습니다.
결과: 이 모델은 91.8% 의 정확도를 달성하여 기존 단일 모델들보다 더 뛰어난 성능을 보였습니다.

5. 해결책 4: "왜?"라고 답해주는 설명 가능한 AI (XAI)

기존 AI 는 "병입니다"라고만 말했지만, 이 모델은 Grad-CAM 같은 기술을 써서 "왜 병이라고 생각했는지" 눈으로 보여줍니다.

비유: 의사가 "이 환자는 폐렴입니다"라고 말할 때, 단순히 말만 하는 게 아니라 흉부 X-ray 사진 위에 빨간색 하이라이트 펜으로 "여기, 이 부분이 흰색으로 변해있어서 폐렴입니다"라고 표시해 주는 것과 같습니다.
효과: AI 가 미세혈관 확장, 출혈, 흰 반점 (삼출물) 같은 병변을 정확히 지적해 주므로, 실제 의사가 AI 의 판단을 신뢰하고 검증할 수 있습니다.

6. 결론: 앞으로의 전망

이 연구는 단순히 "정확도 높은 AI"를 만드는 것을 넘어, 의사들이 실제로 쓸 수 있는 신뢰할 수 있는 도구를 만들었습니다.

현재: 다양한 데이터로 훈련된 '범용 AI'가 병변을 정확히 찾고, 그 이유를 시각적으로 보여줍니다.
미래: 아직 계산 비용이 많이 들고, 데이터 불균형 문제가 완전히 해결된 것은 아닙니다. 앞으로는 더 발전된 기술 (비전 트랜스포머 등) 을 도입하고, 가상의 데이터를 만들어 불균형을 더 완벽하게 해결하여 전 세계 어디서든 실용화되길 기대합니다.

한 줄 요약:

"다양한 눈 사진을 모아 훈련시키고, 두 명의 AI 전문가를 팀으로 묶어 정밀하게 진단하며, 의사에게 '왜 병인지' 사진으로 설명해 주는 믿을 수 있는 AI 의사를 개발했습니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

배경: 당뇨망막병증 (Diabetic Retinopathy, DR) 은 당뇨병으로 인한 시신경 혈관 손상으로 인해 실명을 유발할 수 있는 심각한 안과 질환입니다. 조기 발견과 정확한 분류가 질병 진행을 막는 핵심입니다.
현황 및 한계: 기존 머신러닝 및 딥러닝 기반 DR 진단 모델은 다음과 같은 문제점을 겪고 있습니다.
- 데이터 불균형 (Class Imbalance): 특정 병기 (Severity Level) 의 데이터가 부족하여 모델 편향이 발생합니다.
- 데이터 다양성 부족: 단일 데이터셋을 사용할 경우 이미징 장비, 조명 조건, 환자 인구통계학적 차이로 인한 일반화 (Generalization) 능력이 떨어집니다.
- 검증 가능성 (Interpretability) 부족: 딥러닝 모델이 '블랙박스'로 작동하여, 임상가가 모델의 판단 근거 (병변 위치 등) 를 신뢰하기 어렵습니다.
- 특징 추출의 한계: 단일 아키텍처만으로는 미세한 병변 (미세동맥류, 출혈 등) 과 전체적인 맥락을 동시에 포착하는 데 한계가 있습니다.

2. 제안된 방법론 (Methodology)

이 논문은 VR-FuseNet이라는 새로운 하이브리드 딥러닝 모델을 제안하며, 다음과 같은 체계적인 프로세스를 따릅니다.

가. 데이터 구축 및 전처리 (Data Construction & Preprocessing)

하이브리드 데이터셋: 5 개의 공개된 DR 데이터셋 (APTOS 2019, DDR, IDRiD, Messidor 2, Retino) 을 통합하여 총 28,135 개의 이미지를 포함한 대규모 하이브리드 데이터셋을 구축했습니다. 이는 이미징 조건과 인구통계학적 다양성을 확보하기 위함입니다.
불균형 해결 (SMOTE): Synthetic Minority Over-sampling Technique (SMOTE) 을 적용하여 소수 클래스 (병변이 심한 단계 등) 에 대한 합성 데이터를 생성하고 클래스 불균형을 해소했습니다.
이미지 향상 (CLAHE): Contrast Limited Adaptive Histogram Equalization (CLAHE) 을 적용하여 망막 이미지의 대비를 개선하고 미세 병변 (미세동맥류, 출혈, 삼출물) 을 선명하게 했습니다.
정규화 및 리사이징: 이미지를 $128 \times 128$ 크기로 리사이징하고 정규화하여 모델 입력을 통일했습니다.

나. VR-FuseNet 모델 아키텍처 (Model Architecture)

하이브리드 특징 융합 (Feature Fusion): 두 가지 선진 CNN 아키텍처의 장점을 결합했습니다.
- VGG19: 얇고 깊은 구조로 미세한 공간적 특징 (Fine-grained spatial features) 을 추출하는 데 강점이 있습니다.
- ResNet50V2: 잔차 연결 (Residual connections) 을 통해 깊은 네트워크 학습을 가능하게 하며, 추상적이고 고수준의 특징 (Deep hierarchical features) 을 추출합니다.
동작 원리: 입력 이미지가 VGG19 와 ResNet50V2 를 각각 통과하여 추출된 특징 벡터 ( $m_1, m_2$ ) 를 병렬로 결합합니다. 특징 공간의 공분산을 고려한 융합 전략을 사용하여 특징의 중복을 줄이고 표현력을 극대화합니다.
분류기: 융합된 특징은 Flatten 레이어, Dense 레이어 (256, 64 뉴런), 드롭아웃 (Dropout) 을 거쳐 Softmax 함수를 통해 5 가지 DR 등급 (정상, 경증, 중등도, 중증, 증식성) 으로 분류됩니다.

다. 설명 가능한 인공지능 (XAI) 적용

모델의 임상적 신뢰도를 높이기 위해 5 가지 그래디언트 기반 XAI 기법을 적용하여 예측의 근거를 시각화했습니다.

사용된 기법: Grad-CAM, Grad-CAM++, Layer-CAM, Score-CAM, Faster Score-CAM.
목적: 모델이 망막의 어떤 부분 (미세동맥류, 출혈, 삼출물 등) 을 보고 병을 판단했는지 열지도 (Heatmap) 로 보여줌으로써 임상가의 검증을 가능하게 합니다.

3. 주요 기여 (Key Contributions)

하이브리드 데이터셋 통합: 5 개의 이질적인 공개 데이터셋을 통합하여 모델의 일반화 성능과 편향성을 줄였습니다.
VR-FuseNet 모델 제안: VGG19 와 ResNet50V2 의 상호 보완적 강점을 융합한 새로운 하이브리드 모델을 개발하여 개별 모델보다 우수한 성능을 달성했습니다.
포괄적인 평가: 단일 데이터셋뿐만 아니라 통합 하이브리드 데이터셋에 대한 다양한 모델 (VGG16, VGG19, ResNet50V2, MobileNetV2, Xception) 의 성능을 비교 평가했습니다.
다중 XAI 기법 비교: 다양한 XAI 기법을 적용하여 DR 특이적 병변을 가장 잘 시각화하는 방법을 도출하고, 임상적 해석 가능성을 높였습니다.

4. 실험 결과 (Results)

하이브리드 데이터셋을 기반으로 한 VR-FuseNet 모델의 성능은 기존 단일 모델들을 모두 능가했습니다.

성능 지표:
- 정확도 (Accuracy): 91.824%
- 정밀도 (Precision): 92.612%
- 재현율 (Recall): 92.233%
- F1-Score: 92.392%
- AUC (Area Under Curve): 98.749%
비교 분석:
- 단일 아키텍처 중에서는 VGG19 가 가장 좋은 성능을 보였으나 (약 90.9%), 제안된 VR-FuseNet 이 모든 지표에서 최상의 결과를 기록했습니다.
- 특히 Messidor 2 및 Retino 데이터셋에서 VGG 기반 모델이 우세했으나, VR-FuseNet 은 모든 데이터셋에서 일관된 높은 성능을 유지하며 데이터의 이질성을 잘 처리함을 입증했습니다.
XAI 결과: 생성된 열지도는 망막의 병변 부위 (미세동맥류, 출혈 등) 를 정확하게 강조하여 모델이 임상적으로 유의미한 특징을 학습했음을 시각적으로 증명했습니다.

5. 의의 및 결론 (Significance & Conclusion)

임상적 활용성: 높은 정확도와 함께 XAI 를 통한 해석 가능성을 제공함으로써, 의료진이 AI 의 진단을 신뢰하고 임상 의사결정에 활용할 수 있는 기반을 마련했습니다.
강건성 (Robustness): 다양한 출처의 데이터를 학습함으로써 실제 임상 환경에서 발생할 수 있는 이미지 품질 및 조명 변화에 대한 모델의 적응력을 높였습니다.
향후 과제:
- 계산 비용: Transformer 기반 모델 (ViT) 도입을 통한 장기적 의존성 학습 가능성 탐구.
- 데이터 불균형: GAN(Generative Adversarial Networks) 을 활용한 고품질 합성 데이터 생성으로 클래스 불균형 문제 해결.
- 멀티모달 접근: 이미지 데이터뿐만 아니라 환자의 임상 기록, 유전적 요인 등을 결합한 종합 진단 시스템 개발.

이 논문은 당뇨망막병증의 자동 분류를 위해 데이터의 다양성 확보, 하이브리드 모델 아키텍처 설계, 그리고 설명 가능한 AI 의 통합을 통해 기존 연구의 한계를 극복하고 임상 적용 가능성을 높인 의미 있는 연구입니다.