Robust Fine-Tuning from Non-Robust Pretrained Models: Mitigating Suboptimal Transfer With Epsilon-Scheduling

이 논문은 비강건(pretrained) 모델에서 강건 미세조정 시 발생하는 비최적 전이 현상을 해결하기 위해 훈련 중 교란 강도를 조절하는 '에타 스케줄링 (Epsilon-Scheduling)' 기법을 제안하고, 이를 통해 다양한 모델과 데이터셋에서 전이 실패를 방지하며 기대 강건성을 향상시킨다는 것을 입증합니다.

Jonas Ngnawé, Maxime Heuillet, Sabyasachi Sahoo, Yann Pequignot, Ola Ahmad, Audrey Durand, Frédéric Precioso, Christian Gagné

게시일 2026-03-16
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"비겁한 (취약한) 전문가를 어떻게 훈련시켜 강인한 전문가로 만들 것인가?"**라는 문제를 해결한 연구입니다.

현대 AI 는 보통 "대규모로 미리 학습된 모델 (Pre-trained Model)"을 가져와서 특정 작업에 맞게 조금만 수정 (Fine-tuning) 합니다. 문제는 이 미리 학습된 모델들이 대부분 해킹 (적대적 공격) 에 매우 취약하다는 점입니다. 이 취약한 모델을 강인하게 만들기 위해 훈련하면, 오히려 원래 하던 일도 못 하게 되는 끔찍한 상황이 발생합니다.

이 논문은 그 원인을 찾아내고, **"점진적인 훈련 (Epsilon-Scheduling)"**이라는 새로운 방법을 제안하여 이 문제를 해결했습니다.


🎭 비유로 이해하는 이 연구

1. 문제 상황: "갑작스러운 고난도 훈련"의 실패

상상해 보세요. **초보 요리사 (비강인한 AI)**가 있습니다. 이 요리사는 기본 요리는 잘하지만, 불을 너무 세게 하거나 재료를 엉망으로 섞으면 망쳐버립니다.

이제 이 초보 요리사를 **세계적인 미식가 (강인한 AI)**로 키우려고 합니다.

  • 기존 방식 (RFT-fix): "너는 이제부터 최고의 요리사처럼 행동해라!"라고 말하며, 처음부터 끝까지 아주 거친 상황 (불을 세게 켜고, 재료를 던져 넣는 등) 에서만 훈련시킵니다.
  • 결과: 초보 요리사는 당황해서 아예 요리를 못 하게 됩니다. 기본 요리 실력도 잃어버리고, 거친 상황에서도 제대로 된 요리를 못 만들어냅니다. 이를 논문에서는 **'최적화되지 않은 전이 (Suboptimal Transfer)'**라고 부릅니다. 즉, "강해지려다 오히려 무너진" 상태입니다.

2. 원인 분석: "적응의 지연"

연구진은 왜 이런 일이 일어나는지 분석했습니다.

  • 이유: 초보 요리사에게 처음부터 거친 상황을 강요하면, **기본적인 요리법 (작업 적응)**을 배우는 시간이 늦어집니다.
  • 비유: 요리사가 "불 조절"과 "재료 손질"을 배우는 동안, 갑자기 "폭풍우 속에서 요리"를 하라고 하면 당황해서 아무것도 못 합니다. 기본기를 다지기 전에 고난도 훈련을 시작했기 때문입니다.

3. 해결책: "점진적 훈련 (Epsilon-Scheduling)"

이제 연구진이 제안한 새로운 훈련 방식을 소개합니다.

  • 새로운 방식 (Epsilon-Scheduling):
    1. 1 단계 (초반): 먼저 평온한 주방에서 기본 요리를 완벽하게 익힙니다. (강인함은 0, 기본 실력 100)
    2. 2 단계 (중반): 서서히 약간의 바람을 불어넣거나 재료를 살짝 던져보며 적응합니다.
    3. 3 단계 (후반): 이제 폭풍우 속에서도 요리할 수 있도록 점차 강도를 높입니다.
  • 결과: 요리사는 기본 실력을 잃지 않으면서, 점차 거친 상황에도 적응하게 됩니다. 결국 기본 요리 실력도 좋고, 거친 상황에서도 잘하는 진정한 미식가가 됩니다.

4. 새로운 평가 기준: "예상 강인함 (Expected Robustness)"

기존에는 "최악의 상황 (폭풍우) 에서 얼마나 잘하냐"만 평가했습니다. 하지만 이 논문은 **"평소부터 폭풍우까지, 모든 상황에서의 평균 실력"**을 평가하는 새로운 점수표를 만들었습니다.

  • 비유: "폭풍우 때만 100 점이고 평소엔 0 점인 요리사"보다, "폭풍우 때 80 점이고 평소엔 90 점인 요리사"가 더 쓸모 있다는 것을 증명했습니다.

💡 핵심 요약

  1. 현실: 우리가 많이 쓰는 AI 모델들은 해킹에 약합니다.
  2. 문제: 약한 AI 를 강하게 만들려고 처음부터 강하게 훈련하면, AI 가 아예 망가져서 원래 일도 못 합니다. (강해지려다 무너짐)
  3. 원인: AI 가 새로운 일을 배우는 시간이 지연되기 때문입니다.
  4. 해결: Epsilon-Scheduling이라는 방법을 썼습니다.
    • 처음엔 약하게 (기본 훈련) 시작해서 AI 가 일을 익히게 합니다.
    • 나중에 점점 강하게 (해킹 훈련) 바꿔줍니다.
  5. 성과: 이 방법을 쓰면, AI 는 원래 일도 잘하면서 해킹에도 강해집니다.

🚀 결론

이 연구는 "AI 를 강하게 만들려면 조급해하지 말고 단계적으로 훈련하라"는 교훈을 줍니다. 마치 아이를 키울 때, 처음부터 무거운 짐을 지우지 않고 가벼운 것부터 시작해 근육을 키워주는 것과 같은 원리입니다. 이 방법을 사용하면, 우리가 이미 가진 약한 AI 모델들도 더 안전하고 똑똑하게 만들 수 있습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →