DiffInf: Influence-Guided Diffusion for Supervision Alignment in Facial Attribute Learning

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"DiffInf"**라는 새로운 기술을 소개합니다. 이 기술은 얼굴 사진의 속성 (나이, 표정 등) 을 분류하는 인공지능을 더 똑똑하게 만드는 방법입니다.

이해하기 쉽게 **요리사 (AI)**와 **요리 재료 (데이터)**의 비유로 설명해 드릴게요.

1. 문제: "혼란스러운 레시피"

우리가 AI 를 가르칠 때는 수많은 얼굴 사진과 그 사진에 붙은 라벨 (예: "이 사람은 30 대", "이 사람은 웃고 있다") 을 줍니다. 하지만 현실에서는 이 레이블이 항상 정확하지 않습니다.

상황: 사진 속 사람은 분명히 50 대처럼 보이는데, 데이터에는 "20 대"라고 잘못 적혀 있는 경우죠.
결과: AI(요리사) 는 이 잘못된 정보를 믿고 배우려다 보니, 머리가 혼란스러워지고 결국 요리를 망치게 됩니다. 특히 이 잘못된 레이블이 붙은 사진이 AI 학습에 너무 큰 영향을 미쳐서, 전체 학습 방향을 엉뚱한 곳으로 끌어당기는 경우가 많습니다.

기존의 해결책은 이런 "망친 재료"를 아예 버리는 것이었습니다. 하지만 이 방법은 두 가지 문제가 있습니다.

재료 (데이터) 가 줄어들어 AI 가 다양한 상황을 배우기 어려워집니다.
그 사진 속 사람의 얼굴 특징 (정체성) 은 여전히 유용한데, 그냥 버려버리는 셈이 됩니다.

2. 해결책: DiffInf (영향력 가이드 확산)

이 논문은 "버리는 대신 고쳐보자"는 아이디어를 제시합니다. 이를 위해 두 가지 핵심 기술을 섞었습니다.

① "누가 가장 큰 소음을 내는가?" 찾기 (영향력 분석)

먼저 AI 가 학습하는 과정을 지켜보다가, **"어떤 사진이 AI 를 가장 많이 혼란스럽게 만드는가?"**를 계산합니다. 마치 교실에서 수업 집중을 방해하는 학생을 찾아내는 것과 같습니다. 이 논문은 단순히 나쁜 데이터를 찾는 게 아니라, **"이 데이터가 학습에 얼마나 큰 충격을 주는지"**를 정량적으로 측정합니다.

② "요리 재료 다듬기" (확산 모델로 수정)

이제 문제가 되는 사진을 버리지 않고, 최신 생성형 AI(확산 모델) 를 이용해 다듬어서 다시 사용합니다.

비유: 사진 속 사람이 50 대인데 레이블이 "20 대"라면, AI 는 그 사람의 얼굴 뼈대나 헤어스타일 같은 정체성은 그대로 유지하면서, 피부 결이나 주름 같은 나이 관련 특징만 20 대처럼 자연스럽게 수정합니다.
핵심: 사진 속 사람의 얼굴이 바뀐 게 아니라, 레이블과 사진이 서로 잘 어울리도록 수정된 것입니다.

3. DiffInf 의 마법 같은 과정

감지: AI 가 학습할 때 가장 큰 방해가 되는 "문제 사진"을 찾아냅니다.
수정: 그 사진의 얼굴 특징 (정체성) 은 그대로 두고, 레이블 (예: 나이, 표정) 에 맞게 시각적 특징을 자연스럽게 바꿉니다.
재학습: 고쳐진 사진으로 다시 AI 를 훈련시킵니다.

4. 왜 이것이 중요한가요?

데이터를 잃지 않음: 나쁜 데이터를 삭제하지 않고 고쳐서 쓰므로, AI 가 배울 수 있는 정보의 양이 줄지 않습니다.
더 정확한 AI: 레이블과 사진이 서로 일치하게 되므로, AI 는 훨씬 더 정확하게 나이와 표정을 구분할 수 있게 됩니다.
공정한 학습: 특정 인종이나 성별에 편향된 데이터가 있어도, 그 데이터의 시각적 특징을 살리면서 레이블만 고쳐주므로 편향을 줄이는 데도 도움이 됩니다.

요약

이 논문은 **"나쁜 데이터는 버리는 게 아니라, AI 가 더 잘 배울 수 있도록 '수리'해서 다시 쓰자"**는 아이디어입니다. 마치 요리사가 상한 재료를 버리는 대신, 신선하게 다듬어 최고의 요리를 만드는 것처럼요. 이를 통해 AI 는 더 똑똑하고, 더 공정하며, 더 안정적인 얼굴 인식 능력을 갖게 됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

배경: 얼굴 속성 (나이, 표정 등) 분류는 대규모 주석 데이터에 의존하지만, 이러한 속성들은 본질적으로 모호하고 연속적인 특성을 가짐에도 불구하고 이산적인 범주형 레이블로 변환됩니다.
핵심 문제: 조명, 자세, 인종, 메이크업 등의 시각적 교란 요인과 주관적인 해석으로 인해 주석 불일치 (Annotation Inconsistency) 가 발생합니다. 이는 이미지와 할당된 레이블 간의 불일치를 초래하여 '노이즈가 있는 레이블 (Noisy Labels)' 문제를 야기합니다.
기존 방법의 한계:
- 기존 연구들은 영향력이 큰 (high-influence) 샘플이 학습을 불안정하게 만든다는 점을 인지하고, 이를 제거 (Removal), 재가중치 (Reweighting), 또는 레이블 재할당 (Relabeling) 하는 방식으로 대응해 왔습니다.
- 특히 '제거' 방식은 데이터 분포를 왜곡시키고, 희귀한 시각적 패턴 (covariate combinations) 을 포함하는 유효한 샘플까지 잃어버리게 되어 데이터 다양성을 감소시킵니다.
목표: 레이블 불일치로 인해 학습을 방해하는 샘플을 단순히 제거하는 것이 아니라, 이미지 수준에서 시각적 내용을 레이블에 맞게 수정 (Generative Correction) 하여 데이터의 다양성을 유지하면서 학습 안정성을 확보하는 것입니다.

2. 제안 방법론: DiffInf (Methodology)

DiffInf 는 자기 영향도 (Self-Influence) 기반의 확산 (Diffusion) 프레임워크로, 학습 데이터를 생성적으로 보정하여 지도 신호를 정렬합니다. 전체 프로세스는 다음과 같습니다.

2.1. 자기 영향도 추정 (Self-Influence Estimation)

기초: TracIn 과 같은 1 차 근사 (First-order approximation) 를 사용하여 각 학습 샘플이 최적화 과정에 미치는 영향을 정량화합니다.
메커니즘:
- 베이스라인 분류기를 학습시킨 후, 각 샘플의 자기 영향도 점수 (Self-influence score) 를 계산합니다.
- 높은 자기 영향도 점수를 가진 샘플은 레이블과 이미지의 불일치, 또는 희귀한 모드로 인해 학습을 불안정하게 만드는 '교란 샘플'로 간주됩니다.
- 상위 $\tau\%$ (예: 10%) 의 샘플을 고영향도 샘플 (High-influence subset, $\mathcal{H}$ ) 로 선정합니다.

2.2. 영향도 예측기 학습 (Learning an Influence Predictor)

생성 최적화 과정에서 직접 영향도를 계산하는 것은 계산 비용이 너무 큽니다.
따라서, 고영향도 샘플 여부를 이진 분류로 예측하는 가벼운 예측기 (Lightweight Predictor, $h_\omega$ ) 를 학습시킵니다.
이 예측기는 확산 과정 중 미분 가능한 영향도 정규화 (Differentiable Influence Regularizer) 로 작용하여, 생성된 이미지가 학습을 불안정하게 만드는 영역에서 벗어나도록 유도합니다.

2.3. 영향도 유도 생성적 보정 (Influence-Guided Generative Correction)

모델: 사전 학습된 잠재 확산 오토인코더 (Latent Diffusion Autoencoder) 를 사용합니다.
목표 함수: 고영향도 샘플 $x_i$ $x_{i}$ 에 대해 새로운 이미지 $\hat{x}_i$ $\overset{x}{^}_{i}$ 를 생성할 때 다음 세 가지 손실 함수를 균형 있게 최적화합니다.
1. 정체성 보존 (Identity Preservation): 얼굴 인식 네트워크를 사용하여 원본 이미지와 생성된 이미지의 임베딩 거리를 최소화합니다. (얼굴 구조, 뼈대 유지)
2. 정규화 (Regularization): 구조적 일관성 (얼굴 파싱 네트워크) 과 지각적 유사성 (LPIPS 등) 을 유지하여 비현실적인 편집을 방지합니다.
3. 영향도 억제 (Self-Influence Suppression): 학습된 영향도 예측기 $h_\omega$ 를 사용하여 생성된 이미지가 저영향도 (Low-influence) 영역으로 이동하도록 유도합니다. 즉, 분류기가 해당 이미지를 레이블과 일관되게 학습할 수 있도록 만듭니다.
결과: 원본 이미지의 정체성은 유지하되, 할당된 레이블 (예: 나이, 표정) 에 더 부합하도록 시각적 속성이 조정된 이미지로 대체됩니다.

2.4. 정제된 데이터셋 재학습

원본 고영향도 샘플을 생성된 보정 샘플로 교체하여 데이터셋 크기와 분포 커버리지는 유지한 채 정제된 데이터셋 ( $\mathcal{D}'$ ) 을 구성합니다.
이 데이터셋으로 분류기를 재학습하여 일반화 성능을 향상시킵니다.

3. 주요 기여 (Key Contributions)

DiffInf 프레임워크 제안: 노이즈가 있는 지도 하에서 얼굴 속성 학습을 위해 자기 영향도 기반 확산 프레임워크를 최초로 도입했습니다.
제거가 아닌 생성적 대체: 고영향도 샘플을 데이터셋에서 삭제하는 대신, 잠재 확산 오토인코딩을 통한 타겟 생성적 대체를 통해 데이터 다양성과 커버리지를 유지하면서 레이블 정렬을 달성했습니다.
미분 가능한 영향도 예측기: 잠재 최적화 과정에서 확장 가능한 영향도 유도 보정을 가능하게 하기 위해 고영향도 소속 확률 예측기를 통합했습니다.
실증적 성과: 다중 클래스 나이 및 표정 분류 작업에서 기존 노이즈 레이블 학습, 강건한 최적화 기법, 영향도 기반 필터링 방법보다 일관된 성능 향상을 입증했습니다. 특히, 단순히 제거하는 것보다 수리 (Repairing) 하는 것이 더 효과적임을 보였습니다.

4. 실험 결과 (Results)

데이터셋 및 설정: FFHQ 데이터셋을 사용하여 나이 (3 클래스) 와 표정 (4 클래스) 분류 작업을 수행했습니다. 학습 데이터에 인위적으로 레이블 노이즈 (나이는 30%, 표정은 20%) 를 주입했습니다.
성능 비교:
- 나이 분류: DiffInf 는 노이즈가 있는 데이터로 학습한 기준 모델 (70.44% 정확도) 대비 83.37% 의 정확도를 달성했습니다 (약 12.93%p 향상). 기존 필터링 기법 (Self inf removal, 81.23%) 보다도 성능이 우수했습니다.
- 표정 분류: DiffInf 는 94.24% 의 정확도를 기록하여 기준 모델 (78.95%) 과 필터링 기법 (93.42%) 모두를 능가했습니다.
- 지표: 정확도 (Accuracy), AUROC, 코헨의 카파 ( $\kappa$ ) 등 모든 지표에서 유의미한 개선을 보였습니다.
지각적 유사성 (Perceptual Similarity): 생성된 이미지와 원본 이미지 간의 LPIPS 거리가 낮아 (0.196~0.244), 생성 과정이 원본의 정체성과 구조를 잘 보존하며 제한된 범위 내에서 속성만 수정했음을 확인했습니다.
시각적 분석: 나이 불일치 (예: 노안인 얼굴을 '젊음'으로 레이블링) 나 표정 불일치 샘플들이 생성 과정을 통해 레이블에 부합하도록 수정되었으나, 얼굴의 정체성 (얼굴형, 조명 등) 은 유지된 것을 확인했습니다.

5. 의의 및 결론 (Significance & Conclusion)

데이터 중심 강건성 (Data-Centric Robustness): 이 연구는 노이즈가 있는 레이블을 단순히 제거하거나 가중치를 조절하는 것을 넘어, 데이터 자체를 생성적으로 수정하여 지도 신호를 정렬하는 새로운 패러다임을 제시합니다.
고영향도 샘플의 재해석: 고영향도 샘플을 '학습에 해로운 노이즈'가 아니라, 시각적 정보는 유효하지만 레이블이 불일치하는 자산으로 재해석했습니다. 이를 제거하지 않고 수정함으로써 데이터의 다양성과 희귀 모드를 보존하면서도 최적화 안정성을 확보했습니다.
확장 가능성: 얼굴 속성 학습뿐만 아니라, 의료 영상, 세밀한 인식 (fine-grained recognition), 약지도 학습 등 레이블 노이즈가 존재하지만 이미지 내용이 중요한 다양한 분야에서 적용 가능한 데이터 중심 강건성 전략의 기반을 마련했습니다.

요약하자면, DiffInf는 영향도 분석을 통해 학습을 방해하는 '문제 샘플'을 찾아내고, 확산 모델을 이용해 해당 샘플의 시각적 내용을 레이블에 맞게 자연스럽게 수정함으로써, 데이터의 다양성을 해치지 않으면서 모델의 일반화 성능을 극대화하는 혁신적인 접근법입니다.