Robust Fine-Tuning from Non-Robust Pretrained Models: Mitigating Suboptimal Transfer With Epsilon-Scheduling

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"비겁한 (취약한) 전문가를 어떻게 훈련시켜 강인한 전문가로 만들 것인가?"**라는 문제를 해결한 연구입니다.

현대 AI 는 보통 "대규모로 미리 학습된 모델 (Pre-trained Model)"을 가져와서 특정 작업에 맞게 조금만 수정 (Fine-tuning) 합니다. 문제는 이 미리 학습된 모델들이 대부분 해킹 (적대적 공격) 에 매우 취약하다는 점입니다. 이 취약한 모델을 강인하게 만들기 위해 훈련하면, 오히려 원래 하던 일도 못 하게 되는 끔찍한 상황이 발생합니다.

이 논문은 그 원인을 찾아내고, **"점진적인 훈련 (Epsilon-Scheduling)"**이라는 새로운 방법을 제안하여 이 문제를 해결했습니다.

🎭 비유로 이해하는 이 연구

1. 문제 상황: "갑작스러운 고난도 훈련"의 실패

상상해 보세요. **초보 요리사 (비강인한 AI)**가 있습니다. 이 요리사는 기본 요리는 잘하지만, 불을 너무 세게 하거나 재료를 엉망으로 섞으면 망쳐버립니다.

이제 이 초보 요리사를 **세계적인 미식가 (강인한 AI)**로 키우려고 합니다.

기존 방식 (RFT-fix): "너는 이제부터 최고의 요리사처럼 행동해라!"라고 말하며, 처음부터 끝까지 아주 거친 상황 (불을 세게 켜고, 재료를 던져 넣는 등) 에서만 훈련시킵니다.
결과: 초보 요리사는 당황해서 아예 요리를 못 하게 됩니다. 기본 요리 실력도 잃어버리고, 거친 상황에서도 제대로 된 요리를 못 만들어냅니다. 이를 논문에서는 **'최적화되지 않은 전이 (Suboptimal Transfer)'**라고 부릅니다. 즉, "강해지려다 오히려 무너진" 상태입니다.

2. 원인 분석: "적응의 지연"

연구진은 왜 이런 일이 일어나는지 분석했습니다.

이유: 초보 요리사에게 처음부터 거친 상황을 강요하면, **기본적인 요리법 (작업 적응)**을 배우는 시간이 늦어집니다.
비유: 요리사가 "불 조절"과 "재료 손질"을 배우는 동안, 갑자기 "폭풍우 속에서 요리"를 하라고 하면 당황해서 아무것도 못 합니다. 기본기를 다지기 전에 고난도 훈련을 시작했기 때문입니다.

3. 해결책: "점진적 훈련 (Epsilon-Scheduling)"

이제 연구진이 제안한 새로운 훈련 방식을 소개합니다.

새로운 방식 (Epsilon-Scheduling):
1. 1 단계 (초반): 먼저 평온한 주방에서 기본 요리를 완벽하게 익힙니다. (강인함은 0, 기본 실력 100)
2. 2 단계 (중반): 서서히 약간의 바람을 불어넣거나 재료를 살짝 던져보며 적응합니다.
3. 3 단계 (후반): 이제 폭풍우 속에서도 요리할 수 있도록 점차 강도를 높입니다.
결과: 요리사는 기본 실력을 잃지 않으면서, 점차 거친 상황에도 적응하게 됩니다. 결국 기본 요리 실력도 좋고, 거친 상황에서도 잘하는 진정한 미식가가 됩니다.

4. 새로운 평가 기준: "예상 강인함 (Expected Robustness)"

기존에는 "최악의 상황 (폭풍우) 에서 얼마나 잘하냐"만 평가했습니다. 하지만 이 논문은 **"평소부터 폭풍우까지, 모든 상황에서의 평균 실력"**을 평가하는 새로운 점수표를 만들었습니다.

비유: "폭풍우 때만 100 점이고 평소엔 0 점인 요리사"보다, "폭풍우 때 80 점이고 평소엔 90 점인 요리사"가 더 쓸모 있다는 것을 증명했습니다.

💡 핵심 요약

현실: 우리가 많이 쓰는 AI 모델들은 해킹에 약합니다.
문제: 약한 AI 를 강하게 만들려고 처음부터 강하게 훈련하면, AI 가 아예 망가져서 원래 일도 못 합니다. (강해지려다 무너짐)
원인: AI 가 새로운 일을 배우는 시간이 지연되기 때문입니다.
해결: Epsilon-Scheduling이라는 방법을 썼습니다.
- 처음엔 약하게 (기본 훈련) 시작해서 AI 가 일을 익히게 합니다.
- 나중에 점점 강하게 (해킹 훈련) 바꿔줍니다.
성과: 이 방법을 쓰면, AI 는 원래 일도 잘하면서 해킹에도 강해집니다.

🚀 결론

이 연구는 "AI 를 강하게 만들려면 조급해하지 말고 단계적으로 훈련하라"는 교훈을 줍니다. 마치 아이를 키울 때, 처음부터 무거운 짐을 지우지 않고 가벼운 것부터 시작해 근육을 키워주는 것과 같은 원리입니다. 이 방법을 사용하면, 우리가 이미 가진 약한 AI 모델들도 더 안전하고 똑똑하게 만들 수 있습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 현대 머신러닝에서 사전 학습된 모델 (Backbone) 을 하위 작업에 맞게 미세 조정 (Fine-tuning) 하는 것은 표준적인 워크플로우입니다. 특히, 적대적 공격 (Adversarial Examples) 에 대한 견고성 (Robustness) 을 확보하기 위해 **Robust Fine-Tuning (RFT)**이 중요해지고 있습니다.
문제점:
- 대부분의 오픈소스 사전 학습 모델은 **비견고적 (Non-robust)**으로 학습되었습니다.
- 기존 연구들은 견고한 (Robust) 사전 학습 모델을 가정하거나, 견고한 모델이 하위 작업의 견고성에 필수적이라고 주장해 왔습니다.
- 저자들은 비견고적 사전 학습 모델을 기반으로 RFT 를 수행할 때, Suboptimal Transfer (비최적 전이) 현상이 발생함을 발견했습니다.
- Suboptimal Transfer: 견고한 목적 함수 (Adversarial Loss) 로 미세 조정을 수행함에도 불구하고, 오히려 **클린 정확도 (Clean Accuracy)**가 표준 미세 조정 (Standard Fine-tuning) 보다 현저히 낮아지거나, 심지어 무작위 추측 수준으로 떨어지는 현상입니다. 이는 특히 강한 교란 (Perturbation) 이나 어려운 데이터셋에서 두드러집니다.
근본 원인: RFT 는 초기 학습 단계에서 작업 적응 (Task Adaptation) 을 지연시킵니다. 견고성 제약이 모델이 하위 작업의 특징을 학습하는 것을 방해하여, 최적의 전이 성능에 도달하는 시점을 늦추고 결국 성능 저하를 초래합니다.

2. 제안 방법론 (Methodology)

저자들은 위 문제를 해결하기 위해 두 가지 핵심 기여를 제안합니다.

가. Epsilon-Scheduling (에psilon 스케줄링)

개념: 훈련 과정 전체에 걸쳐 고정된 교란 강도 ( $\epsilon_g$ ) 를 사용하는 기존 RFT-fix 와 달리, 교란 강도 ( $\epsilon$ ) 를 시간에 따라 변화시키는 스케줄링 전략입니다.
구조 (Two-hinge Linear Schedule):
1. 적응 단계 ( $t < T_1$ ): 교란 강도를 0 으로 설정하여 표준 미세 조정을 수행합니다. 이 단계에서 모델이 하위 작업에 빠르게 적응하도록 합니다.
2. 전이 단계 ( $T_1 \le t < T_2$ ): 교란 강도를 0 에서 목표 강도 $\epsilon_g$ 까지 선형적으로 증가시킵니다.
3. 견고화 단계 ( $t \ge T_2$ ): 목표 교란 강도 $\epsilon_g$ 를 유지하며 견고한 목적 함수를 최적화합니다.
효과: 초기에는 작업 적응을 우선시한 후, 점차적으로 견고성 학습을 도입하는 커리큘럼 학습 (Curriculum Learning) 전략으로 작동하여, 작업 적응 지연을 방지하고 최적의 전이를 유도합니다.

나. Expected Robustness (기대 견고성) 지표

문제: 기존 평가 방식은 '클린 정확도'와 '특정 $\epsilon_g$ 에서의 견고 정확도'만 보고하여, 중간 교란 강도에서의 성능 변화를 간과합니다.
제안: $[0, \epsilon_g]$ $[0, ϵ_{g}]$ 구간 내의 모든 교란 강도에 대한 정확도의 **기댓값 (Expected Value)**을 새로운 평가 지표로 도입합니다.
- 수식: $Acc_{[0, \epsilon_g]}(f) = \frac{1}{\epsilon_g} \int_{0}^{\epsilon_g} Acc_{\epsilon}(f) d\epsilon$
- 이는 정확도 - 견고성 트레이드오프를 포괄적으로 평가하며, 실제 위협 모델 (입력이 교란될 수도 있고 아닐 수도 있는 상황) 을 더 잘 반영합니다.

3. 주요 실험 결과 (Results)

실험 설정:
- 모델: 6 가지 비견고적 백본 (ViT, Swin, ConvNeXt, ResNet-50, CLIP-ViT, CLIP-ConvNeXt).
- 데이터셋: 5 가지 하위 작업 (CUB, Dogs, Caltech, Cars, Aircraft).
- 조건: 중간 교란 ( $\epsilon_g = 4/255$ ) 및 높은 교란 ( $\epsilon_g = 8/255$ ) regimes.
성능 향상:
- Suboptimal Transfer 방지: Epsilon-Scheduling 은 RFT-fix 가 실패하는 경우 (클린 정확도 < 5% 등) 에도 높은 클린 정확도를 유지하며 성공적인 전이를 가능하게 했습니다.
- 기대 견고성 개선: 모든 설정 (모델, 데이터셋, 교란 강도) 에서 **기대 견고성 (Expected Robustness)**이 RFT-fix 대비 일관되게 향상되었습니다.
- 비견고적 vs 견고적 백본 격차 해소: 비견고적 백본에 Epsilon-Scheduling 을 적용하면, 견고한 사전 학습 모델을 사용한 RFT 와 유사한 수준의 클린 정확도를 달성할 수 있음을 보였습니다.
최적화 과정 분석:
- RFT-fix 는 초기에 Adversarial Loss 와 Clean Loss 를 동시에 줄이기 어려워 최적화 경로가 꼬이는 반면, Epsilon-Scheduling 은 초기에 Clean Loss 를 먼저 최소화한 후 Adversarial Loss 를 줄이는 **다른 국소 최적점 (Local Optimum)**으로 수렴하는 것을 확인했습니다.

4. 연구의 의의 및 기여 (Significance)

새로운 현상 규명: 비견고적 사전 학습 모델에서의 RFT 가 '작업 적응 지연'을 통해 Suboptimal Transfer 를 유발한다는 메커니즘을 최초로 규명했습니다.
실용적인 해결책 제시: 복잡한 재학습이나 견고한 사전 학습 모델이 필요 없이, 기존에 널리 사용되는 비견고적 모델에서도 Epsilon-Scheduling이라는 간단한 스케줄링 기법으로 효과적인 견고 미세 조정이 가능함을 증명했습니다.
평가 지표의 혁신: 단일 점수가 아닌 전체 교란 구간을 고려한 Expected Robustness를 도입하여, 모델 선택 시 더 포괄적이고 실용적인 통찰을 제공합니다.
연구 방향 전환: "견고한 사전 학습이 필수적이다"라는 기존 통념을 깨고, 비견고적 백본에서도 전략적인 미세 조정으로 견고성을 달성할 수 있음을 보여줌으로써, 오픈소스 모델 생태계의 활용도를 높이는 데 기여합니다.

5. 결론

본 논문은 비견고적 사전 학습 모델에서의 견고 미세 조정 실패 원인을 규명하고, Epsilon-Scheduling을 통해 이를 해결하는 효과적인 프레임워크를 제시했습니다. 제안된 방법은 다양한 아키텍처와 데이터셋에서 일관된 성능 향상을 보였으며, 새로운 평가 지표인 Expected Robustness를 통해 모델의 실제 견고성을 더 정밀하게 평가할 수 있는 기준을 마련했습니다. 이는 견고한 머신러닝 시스템 배포를 위한 중요한 실마리를 제공합니다.