A Boundary-Metric Evaluation Protocol for Whiteboard Stroke Segmentation Under Extreme Imbalance

Each language version is independently generated for its own context, not a direct translation.

🎨 1. 문제 상황: "바다 속의 실" 찾기

상상해 보세요. 거대한 흰색 화이트보드 (배경) 가 있고, 그 위에 아주 얇은 검은색 마커로 글씨를 썼습니다.

문제: 화이트보드 전체 면적에서 글씨 (앞면) 가 차지하는 비율은 평균 **1.79%**에 불과합니다. 마치 거대한 흰색 바다 (배경) 속에 실 한 가닥 (글씨) 이 떠 있는 것과 같습니다.
컴퓨터의 실수: 컴퓨터는 "아, 흰색이 98% 이니까 그냥 다 흰색 (배경) 이라고 판단하자!"라고 생각하기 쉽습니다. 이렇게 하면 정확도는 98% 가 나오지만, 정작 중요한 글씨는 하나도 못 찾습니다.
얇은 글씨의 비극: 특히 글씨가 아주 가느다란 경우 (1.14% 정도), 컴퓨터는 그 미세한 선을 무시하고 잘라버립니다.

📏 2. 기존 방법의 한계: "평균 점수"의 함정

기존에는 컴퓨터가 글씨를 얼마나 잘 찾았는지 F1 점수나 IoU 같은 지표를 썼습니다.

비유: 시험을 치는데, 100 문제 중 98 문제가 '아무것도 없음 (배경)'이고 2 문제만 '글씨 (앞면)'라고 합시다.
문제: 컴퓨터가 98 개의 '아무것도 없음'은 다 맞췄지만, 중요한 2 개의 '글씨'는 다 틀렸다면? 평균 점수는 여전히 98 점으로 아주 좋아 보입니다. 하지만 실제 목적 (글씨 찾기) 은 완전히 실패한 것입니다.
결론: 평균 점수만 보면 얇은 글씨를 놓친 치명적인 실수를 눈감게 됩니다.

🔍 3. 이 연구의 핵심 해결책: "세심한 검사관"

이 논문은 두 가지 중요한 변화를 제안합니다.

A. 새로운 평가 도구 (경계 측정기)

기존에는 "글씨 영역 전체가 겹치는가?"만 봤다면, 이 연구는 **"글씨의 가장자리는 얼마나 깔끔하게 잘렸는가?"**를 봅니다.

비유: 그림을 그릴 때, 물감으로 영역을 채우는 것 (기존) 만 중요한 게 아니라, 테두리 선이 얼마나 매끄럽고 정확한지를 확인하는 것입니다. 얇은 글씨는 테두리 (경계) 가 흐릿해지면 바로 사라지기 때문에, 이 부분을 꼼꼼히 보는 것이 핵심입니다.

B. 공정한 점수 매기기 (얇은 글씨 vs 두꺼운 글씨)

글씨가 두꺼운 경우와 얇은 경우를 따로 점수를 매겨 비교합니다.

비유: "무거운 돌 (두꺼운 글씨) 은 잘 찾지만, 가벼운 깃털 (얇은 글씨) 은 못 찾는 학생"과 "돌과 깃털 모두 골고루 잘 찾는 학생"을 구분하는 것입니다.

⚔️ 4. 실험 결과: 어떤 방법이 최고일까?

연구진은 5 가지 다른 학습 방법 (손실 함수) 을 비교했습니다.

기존 방식 (Cross-Entropy): "배경이 많으니까 배경을 위주로 배워라." → 실패. 얇은 글씨를 거의 못 찾습니다.
새로운 방식 (Dice, Tversky 등): "중요한 글씨 (앞면) 에 더 집중해라. 배경은 이미 많으니 무시해도 돼." → 대성공.
- 결과: 기존 방식보다 성능이 20% 이상이나 뛰어났습니다. 특히 Tversky라는 방식이 얇은 글씨를 놓치지 않고 가장 잘 찾았습니다.

🤖 5. 인공지능 vs 전통적인 방법 (규칙 기반)

화이트보드 글씨를 찾는 데는 인공지능 (AI) 말고도 오래된 수학적 방법 (Sauvola 등) 도 있습니다.

전통적인 방법 (규칙 기반):
- 장점: 평균 점수가 매우 높습니다. (화이트보드 상태가 좋을 때는 AI 보다 낫습니다.)
- 단점: 불안정합니다. 조명만 조금 어두워지거나 그림자가 생기면, 갑자기 글씨를 못 찾거나 엉뚱한 것을 글씨로 착각합니다. (비유: 날씨가 좋을 때는 잘 운전하지만, 비만 오면 완전히 막히는 운전사)
인공지능 (학습된 모델):
- 장점: 가장 안정적입니다. 어떤 상황에서도 최소한의 성능은 보장합니다. (비유: 날씨가 나빠도 항상 안전하게 운전하는 운전사)
- 단점: 평균 점수는 전통적인 방법보다 약간 낮을 수 있습니다.

💡 결론: 만약 "가끔 실수해도 괜찮다면 (예: 나중에 사람이 다시 확인)" 전통적인 방법이 좋고, "실시간으로 항상 믿고 써야 한다면 (예: 회의 중 바로 노트로 변환)" 인공지능이 훨씬 낫습니다.

🚀 6. 추가 발견: "고화질"의 힘

화이트보드 사진을 더 선명하게 (해상도를 높여서) 처리하면 성능이 약 13% 더 좋아졌습니다.

비유: 얇은 실을 찾을 때, 현미경으로 보는 것이 맨눈으로 보는 것보다 훨씬 쉽습니다. 컴퓨터에게 더 선명한 사진을 주면 얇은 글씨를 더 잘 찾아냅니다.

📝 한 줄 요약

이 논문은 **"화이트보드 글씨처럼 아주 희미하고 얇은 것을 찾을 때는, 평균 점수보다 '가장자리의 정확도'와 '최악의 상황에서도 견디는 안정성'이 더 중요하다"**는 것을 증명했습니다.

기존의 "무조건 배경을 위주로 배워라"는 방식을 버리고, **"중요한 부분 (글씨) 에 집중하는 학습법"**을 쓰면, 컴퓨터도 얇은 실 같은 글씨를 놓치지 않고 찾아낼 수 있다는 희망을 주었습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

화이트보드 디지털화 (Digitization) 는 혼합 학습 및 협업 환경에서 중요한 단계이나, 실제 구현에는 다음과 같은 심각한 과제가 존재합니다.

극심한 클래스 불균형 (Extreme Class Imbalance): 데이터셋에서 획 (Stroke) 픽셀이 전체 이미지의 평균 **1.79%**만을 차지합니다. 특히 얇은 획 (Thin-stroke) 이 포함된 서브셋에서는 이 비율이 **1.14%**까지 떨어집니다.
기존 손실 함수의 한계: 이러한 불균형 하에서 표준 교차 엔트로피 (Cross-Entropy, CE) 손실 함수는 배경 (Background) 픽셀에 의해 지배되어, 모델이 모든 픽셀을 배경으로 예측하더라도 높은 정확도 (98% 이상) 를 보이게 됩니다. 이로 인해 중요한 전경 (획) 정보가 누락되는 문제가 발생합니다.
얇은 구조의 분실: 다운샘플링 과정과 표준 손실 함수의 균등 가중치로 인해, 얇은 획의 세부 사항이 쉽게 사라지거나 끊어지는 현상이 발생합니다.
평가 지표의 맹점: 기존 지역 기반 지표 (F1, IoU) 는 배경이 지배적인 경우 얇은 획의 경계 품질 저하 (거친 윤곽선 등) 를 숨길 수 있습니다.

2. 방법론 (Methodology)

이 연구는 손실 함수의 성능을 평가하기 위해 엄격하고 재현 가능한 프로토콜을 제안하며, DeepLabV3-MobileNetV3 아키텍처를 기반으로 실험을 수행했습니다.

데이터셋 및 전처리:
- 34 개의 실제 화이트보드 이미지 (스마트폰 촬영) 를 사용하며, 10 배 증강 (Augmentation) 을 통해 총 374 개의 훈련 샘플을 생성했습니다.
- 테스트 데이터는 **코어 (Core, 7 장)**와 **얇은 획 (Thin, 5 장)**으로 분류하여 서브셋별 성능을 분석했습니다.
비교 대상 손실 함수 (5 가지):
1. Cross-Entropy (CE)
2. Focal Loss
3. Dice Loss
4. Dice + Focal Loss
5. Tversky Loss (재현율 Recall 편향 설정: $\alpha=0.3, \beta=0.7$ )
새로운 평가 프로토콜:
- 지역 기반 지표: F1 점수, IoU.
- 경계 기반 지표 (Boundary-aware Metrics): 경계 F1 (BF1), 경계 IoU (B-IoU). 이는 객체 내부가 아닌 윤곽선 주변의 좁은 밴드 내에서만 평가를 수행하여 얇은 구조의 정밀도를 측정합니다.
- 공정성 분석 (Equity Analysis): 코어 서브셋과 얇은 서브셋 간의 성능 격차 (Gap) 를 분석하여 모델이 얇은 획을 얼마나 공정하게 처리하는지 평가합니다.
- 통계적 신뢰도: 3 가지 시드 (Seed) 로 반복 학습 후, 비모수적 통계 검정 (Wilcoxon signed-rank test, Bonferroni 보정) 을 수행하여 유의성을 검증했습니다.
- 강건성 분석: 평균뿐만 아니라 중앙값, IQR (사분위 범위), 최악의 경우 (Worst-case) 성능을 분석하여 모델의 안정성을 평가했습니다.

3. 주요 기여 (Key Contributions)

경계 기반 평가 프로토콜 제안: 극심한 전경 희소성 (Foreground Sparsity) 하에서 얇은 구조 분할을 평가하기 위해 지역 지표, 경계 지표, 서브셋 공정성 분석을 결합한 새로운 프로토콜을 정립했습니다.
손실 함수 비교 및 통계적 검증: 단순한 평균 점수 비교를 넘어, 다중 시드 학습과 비모수 검정을 통해 손실 함수 간 성능 차이의 통계적 유의성을 입증했습니다.
학습 모델 vs. 전통적 기법의 트레이드오프 분석: Sauvola 와 같은 전통적 이진화 기법과 학습된 딥러닝 모델 간의 '정확도 (Mean) 대 일관성 (Consistency)' 트레이드오프를 정량화했습니다.
재현 가능한 파이프라인: 코드, 평가 스크립트, 학습된 가중치를 공개하여 연구의 재현성을 보장했습니다.

4. 실험 결과 (Results)

손실 함수 성능:
- **Dice 계열 손실 (Dice, Dice+Focal, Tversky)**이 Cross-Entropy 및 Focal Loss 를 압도적으로 능가했습니다.
- F1 점수: CE (0.438) 대비 Tversky (0.663) 는 20 포인트 이상의 향상을 보였습니다 ( $p < 0.001$ ).
- 얇은 획 처리: CE/Focal 은 코어와 얇은 획 간의 F1 격차가 약 0.10 이었으나, Dice 계열 손실은 이 격차를 약 0.06 으로 줄여 얇은 획에 대한 처리가 더 균등함을 보였습니다.
- 경계 품질: Dice+Focal 이 가장 높은 BF1 (0.676) 을 기록하여 윤곽선의 선명도가 우수함을 입증했습니다.
해상도 영향:
- 입력 해상도를 1024×768 에서 1536×1152 로 두 배 증가시키면 F1 점수가 12.7 포인트 증가하고, BF1 은 18.5 포인트 증가하여 해상도가 얇은 획 복원에 결정적인 요소임을 확인했습니다.
전통적 기법 (Classical Baselines) vs. 딥러닝:
- Sauvola (전통적): 평균 F1 이 가장 높았음 (0.787). 그러나 최악의 경우 (Worst-case) F1 은 0.452 로 급락하여 일관성이 떨어졌습니다.
- Tversky (딥러닝): 평균 F1 은 Sauvola 보다 낮았으나 (0.663), 최악의 경우 F1 은 0.565 로 가장 높았습니다.
- 결론: Sauvola 는 평균 성능이 좋지만 저조한 조도 조건에서 실패할 위험이 크며, 학습된 모델은 평균은 약간 낮을지라도 모든 이미지에서 일관된 신뢰성을 제공합니다.

5. 의의 및 결론 (Significance & Conclusion)

이 논문은 화이트보드 획 분할과 같은 극심한 클래스 불균형 문제를 해결하기 위해 다음과 같은 통찰을 제공합니다:

손실 함수 선택의 중요성: 분포 기반 손실 (CE) 대신 **중첩 기반 손실 (Overlap-based, Dice/Tversky)**을 사용하는 것이 성능 향상의 핵심 요소입니다.
평가 지표의 확장: F1/IoU 같은 지역 지표만으로는 얇은 구조의 분할 품질을 평가할 수 없으며, **경계 기반 지표 (BF1, B-IoU)**와 서브셋별 공정성 분석이 필수적입니다.
일관성 vs. 정점 성능: 실시간 애플리케이션 (예: 화이트보드 스캐너) 에서는 평균 성능이 높은 전통적 기법보다, 최악의 경우에도 실패하지 않는 학습된 모델이 더 적합합니다.
해상도의 중요성: 얇은 획을 복원하기 위해서는 가능한 한 높은 입력 해상도 (또는 패치 기반 학습) 가 필요하며, 이는 성능 상한선을 결정하는 주요 병목 현상입니다.

결론적으로, 이 연구는 얇은 구조 분할 작업에서 단순한 평균 점수 추적을 넘어, **경계 정밀도, 서브셋 간 공정성, 그리고 모델의 강건성 (Robustness)**을 종합적으로 평가하는 새로운 표준을 제시했습니다.