In-Run Data Shapley for Adam Optimizer

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 를 가르칠 때, 어떤 데이터가 정말 중요한지 알아내는 새로운 방법"**을 소개합니다.

기존의 방법들은 AI 가 배우는 방식 (특히 'Adam'이라는 최신 학습 도구) 을 제대로 반영하지 못해, "이 데이터는 쓸모없다"라고 잘못 판단하거나 "이 데이터는 핵심이다"라고 오해하는 경우가 많았습니다. 이 연구는 그 문제를 해결하고, 실제 AI 가 배우는 방식에 맞춰 데이터의 가치를 정확히 계산하는 기술을 개발했습니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴겠습니다.

1. 문제 상황: "교사"와 "학생"의 불일치

상상해 보세요.

학생 (AI 모델): 최신 기법으로 공부하는 똑똑한 학생입니다.
교사 (Adam 옵티마이저): 이 학생은 단순히 선생님이 말한 대로만 따라 하는 게 아니라, 과거의 실수와 성취를 기억하며 스스로 공부 속도와 방향을 조절합니다. (이것이 'Adam' 옵티마이저의 특징입니다.)
교재 (데이터): 학생이 배우는 수많은 문제집과 예시들입니다.

기존의 문제점:
과거의 연구자들은 "이 학생이 어떤 문제를 풀 때 가장 많이 발전했는지"를 계산할 때, **옛날 방식 (SGD)**을 사용했습니다. 옛날 방식은 "선생님이 말한 대로만 따라 하는 학생"을 가정하고 계산합니다.

하지만 실제 학생은 과거의 경험을 바탕으로 스스로 조절하며 공부합니다. 그래서 옛날 방식 (SGD) 으로 계산한 '중요도 점수'와 실제 학생의 발전 (Adam) 은 전혀 맞지 않았습니다.

비유: 마치 "수학 천재"에게 "국어 시험 문제의 중요도"를 물어보고, 그 답을 수학 공부에 적용하려는 것과 같습니다. 전혀 통하지 않죠. (논문에서는 이 상관관계가 0.11 에 불과했다고 합니다. 거의 무작위 수준입니다.)

2. 해결책: "Adam-aware" (Adam 을 아는) 데이터 평가

이 연구팀은 **"학생이 실제로 어떻게 공부하는지 (Adam 방식) 를 정확히 반영해서 데이터의 가치를 계산하자"**고 제안했습니다.

핵심 아이디어 1: "유령 (Ghost)"을 이용한 빠른 계산

데이터의 가치를 계산하려면 보통 "이 데이터를 하나씩 빼고 다시 학습시켜 봐야 한다"는 식으로 계산해야 하는데, 이는 AI 학습을 멈추고 다시 시작해야 하는 엄청난 비용이 듭니다. (시간과 돈이 너무 많이 듭니다.)

이 연구팀은 **"유령 (Ghost) 기법"**이라는 마법을 사용했습니다.

비유:

기존 방식: 100 명의 학생에게 각각 "너가 이 문제를 풀 때 점수가 얼마나 올랐니?"라고 물어보기 위해, 100 번이나 시험을 치르게 합니다. (너무 비효율적!)

이 연구의 방식: 한 번의 시험 (학습) 동안, 각 학생이 문제를 풀 때 남긴 **미세한 흔적 (기억과 적응)**을 분석해서, "만약 이 학생이 없었다면 점수가 얼마나 떨어졌을까?"를 한 번에 추측해냅니다.

이 '유령' 기법을 사용하면, 학습 속도를 거의 떨어뜨리지 않으면서 (약 95% 효율 유지) 모든 데이터의 가치를 실시간으로 계산할 수 있습니다.

핵심 아이디어 2: "선형화 (Linearized)"라는 다리

Adam 방식은 수학적으로 매우 복잡하고 비선형적입니다. (예: 과거의 실수가 현재 학습에 곱해지거나 나뉘는 등). 이를 그대로 계산하면 '유령' 기법이 작동하지 않습니다.
연구팀은 이 복잡한 수식을 가장 간단한 선형 형태 (직선) 로 근사화했습니다.

비유: 구불구불한 산길 (Adam 의 복잡한 계산) 을 그대로 걷는 대신, 가장 짧은 직선 터널을 뚫고 지나가는 것과 같습니다. 실제 목적지는 거의 같지만, 훨씬 빠르게 이동할 수 있습니다.

3. 실험 결과: 왜 이것이 중요한가?

이 새로운 방법으로 실험을 해보니 놀라운 결과가 나왔습니다.

정확도: 실제 데이터의 중요도와 계산된 점수의 일치율이 99% 이상으로 거의 완벽해졌습니다. (기존 방식은 74% 정도였습니다.)
실제 활용 (데이터 정리):
- 상황: 학습 데이터 중 30% 를 잘라내야 한다고 가정해 봅시다.
- 기존 방식 (SGD): "쓸모없는 데이터"를 잘라냈다고 생각했는데, 알고 보니 핵심 데이터까지 잘라내버려서 AI 성능이 뚝 떨어졌습니다.
- 새로운 방식 (Adam): 진짜 쓸모없는 데이터만 정확히 골라냈습니다. 데이터를 30% 줄였음에도 AI 성능은 오히려 더 좋아지거나 유지되었습니다.
원인 찾기: "이 AI 가 왜 이런 대답을 했지?"라고 물었을 때, 실제 학습에 기여한 원본 데이터를 찾아내는 능력도 훨씬 뛰어났습니다.

4. 결론: 요약하자면

이 논문은 **"AI 를 가르칠 때, 그 AI 가 사용하는 '학습 도구 (Adam)'에 맞춰서 데이터의 가치를 평가해야 한다"**는 사실을 증명했습니다.

과거: 모든 AI 에 똑같은 자물쇠 (SGD 방식) 를 썼는데, 열리지 않아서 헛수고를 했습니다.
현재: 각 AI 의 자물쇠 모양 (Adam 방식) 에 딱 맞는 열쇠를 만들었습니다.
효과: 이 열쇠로 데이터를 정리하면, 불필요한 데이터는 버리고 중요한 데이터만 남기면서 AI 는 더 똑똑해지고, 계산 비용은 거의 들지 않습니다.

이는 거대 AI 모델을 개발할 때 시간과 돈을 아끼고, 더 공정하고 정확한 AI를 만드는 데 큰 도움이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

논문 개요

이 논문은 현대 딥러닝에서 널리 사용되는 Adam 최적화기 (Optimizer) 를 위한 In-Run Data Shapley (훈련 중 데이터 기여도 추정) 방법을 제안합니다. 기존 연구들은 주로 확률적 경사 하강법 (SGD) 의 선형 구조에 의존하여 데이터 기여도를 추정했으나, Adam 과 같은 적응형 최적화기의 복잡한 동역학을 포착하지 못해 신뢰도가 낮다는 문제를 해결합니다.

1. 문제 제기 (Problem)

데이터 귀속 (Data Attribution) 의 중요성: 모델의 편향을 완화하고 계산 자원을 효율적으로 사용하기 위해 개별 데이터 샘플의 기여도를 정확히 평가하는 것이 필수적입니다. Shapley 값은 이를 위한 이론적 표준으로 간주됩니다.
기존 방법의 한계: 최근 제안된 'In-Run Data Shapley' 방법은 재학습 (Retraining) 없이 단일 훈련 과정에서 기여도를 동적으로 추정하여 계산 비용을 줄였습니다. 그러나 이 방법은 SGD 의 선형 업데이트 구조를 전제로 합니다.
Adam 의 비선형성: 실제 현대 딥러닝 모델은 대부분 Adam 을 사용합니다. Adam 은 모멘텀 (1 차 모멘트) 과 적응형 학습률 (2 차 모멘트/분산) 을 사용하여 업데이트를 수행하므로, SGD 기반의 근사법은 Adam 환경에서 데이터 기여도 추정과 실제 기여도 간의 상관관계가 매우 낮음 (Pearson R ≈ 0.11) 을 보입니다. 즉, SGD 기반의 추정치는 Adam 훈련 파이프라인에서는 무의미할 수 있습니다.

2. 방법론 (Methodology)

저자는 Adam 최적화기의 특성을 반영한 새로운 추정 기법을 제안합니다.

가. 최적화기 인식형 데이터 Shapley (Optimizer-Aware Data Shapley)

데이터 가치의 동적 의존성: 데이터의 가치는 고정된 속성이 아니라 최적화 경로 (Optimization Trajectory) 와 밀접하게 연관되어 있음을 증명합니다.
폐쇄형 근사식 유도 (Closed-form Approximation):
- Adam 의 상태 의존적 (Stateful) 업데이트 규칙을 고려하여, 국소 유틸리티 함수 (Local Utility Function) 에 1 차 테일러 전개를 적용합니다.
- 고정 상태 가정 (Fixed-state Assumption): 각 반복 단계에서 모멘트 (Momentum) 와 분산 (Variance) 항을 고정된 상태로 간주하여 유틸리티를 재정의함으로써 Shapley 값의 가법성 (Additivity) 을 복원합니다.
- 이를 통해 Adam 업데이트 방향과 검증 데이터의 기울기 (Gradient) 간의 내적을 기반으로 한 폐쇄형 추정식을 유도합니다.

나. 선형화된 유령 근사 (Linearized Ghost Approximation)

비선형성 문제: Adam 의 분산 의존적 스케일링 항 ( $\frac{1}{\sqrt{v_t} + \epsilon}$ ) 은 기존 SGD 에서 사용되던 효율적인 '유령 점곱 (Ghost Dot-Product)' 기법 (개별 샘플 기울기를 명시적으로 계산하지 않고 계층별 활성화와 오차의 내적으로 계산) 을 적용할 수 없게 만듭니다.
해결책: 분산 의존적 스케일링 항을 1 차 테일러 전개하여 선형화합니다.
- 이를 통해 Adam 업데이트를 '현재 기울기'와 '역사적 모멘트'의 선형 결합으로 근사합니다.
- 결과적으로 단일 역전파 (Backpropagation) 패스로 모든 쌍별 기울기 내적을 계산할 수 있게 되어, 메모리 오버헤드 없이 확장 가능한 계산이 가능해집니다.

3. 주요 기여 (Key Contributions)

최적화기 의존성 증명: SGD 기반 대리 모델 (Proxy) 이 Adam 환경에서 실제 기여도와 상관관계가 거의 없음을 실험적으로 입증했습니다.
Adam 전용 In-Run Data Shapley 개발: 모멘텀과 분산 스케일링을 명시적으로 고려한 최초의 폐쇄형 추정식을 제시했습니다.
확장 가능한 계산 기법: 'Linearized Ghost Approximation'을 통해 개별 샘플 기울기를 물리적으로 생성 (Materialize) 하지 않고도 고효율 계산을 가능하게 했습니다.
실용적 타당성: 근사 오차를 최소화하면서 표준 훈련 처리량 (Throughput) 의 약 95% 를 유지하는 것을 입증했습니다.

4. 실험 결과 (Results)

정확도 (Fidelity):
- 제안된 Adam-aware 방법은 실제 마진 기여도 (Ground-truth) 와 Pearson R > 0.99의 높은 상관관계를 보였습니다.
- 반면, 기존 SGD 기반 방법은 R ≈ 0.74 (또는 실험 설정에 따라 0.11) 로 크게 낮았습니다.
실무 효과 (Practical Effectiveness):
- 시맨틱 소스 식별 (Semantic Source Identification): Wikipedia 코퍼스와 유사한 주제의 합성 데이터에 대해, Adam 기반 방법은 SGD 기반 방법보다 훨씬 정확하게 원본 훈련 데이터를 식별했습니다 (랭킹 순위가 낮음).
- 데이터 가지치기 (Data Pruning, SST-2): Adam 기반 Shapley 점수를 이용해 하위 기여도 데이터를 제거했을 때, 모델의 검증 정확도가 향상되었습니다. 특히 30% 가지치기 시 SGD 기반 방법은 성능이 급격히 저하되었으나, Adam 기반 방법은 안정적인 성능을 유지했습니다.
계산 효율성 (Efficiency):
- 처리량: 표준 AdamW 훈련 대비 87.85 samples/sec (약 95% 효율 유지) 를 달성했습니다.
- 메모리: 개별 샘플 기울기를 저장하지 않아 피크 메모리 사용량이 표준 훈련과 동일 (5179.6 MB) 했습니다. (Naive 구현체는 메모리가 150% 증가하여 12965 MB 사용).

5. 의의 및 결론 (Significance)

이 연구는 데이터 가치 평가가 단순히 데이터 자체의 속성이 아니라 사용된 최적화 알고리즘에 의존적임을 명확히 했습니다. 현대 딥러닝 파이프라인이 Adam 과 같은 적응형 최적화기를 주로 사용하는 점을 고려할 때, SGD 기반의 기존 방법론은 신뢰할 수 없음을 지적했습니다.

제안된 Adam-Aware In-Run Data Shapley는 이론적 엄밀함과 계산 효율성을 모두 갖추어, 대규모 모델 훈련 중 실시간으로 데이터 품질을 평가하고, 편향을 제거하거나 불필요한 데이터를 제거하는 (Data Curation) 데 필수적인 도구로 자리 잡을 수 있음을 입증했습니다. 이는 데이터 중심 AI(Data-Centric AI) 의 발전에 중요한 기여를 합니다.