Benchmarking Few-shot Transferability of Pre-trained Models with Improved Evaluation Protocols

Each language version is independently generated for its own context, not a direct translation.

지금까지 AI 를 평가할 때 두 가지 큰 문제가 있었습니다.

🎲 운 좋은 추첨 (Sampling Lottery):
AI 가 새로운 일을 배울 때, 학습에 쓸 데이터가 아주 적습니다 (예: 고양이 사진 5 장). 이때 어떤 5 장을 뽑느냐에 따라 AI 의 실력이 천차만별이 됩니다. 마치 시험 문제를 5 개만 뽑는데, 운 좋게 내가 아는 문제만 나오면 100 점, 모르는 문제만 나오면 0 점인 것과 같습니다. 기존 연구들은 이 '운'을 무시하고 결과만 발표해서, 어떤 AI 가 진짜로 좋은지 알 수 없게 만들었습니다.
🎭 가짜 시험지 (Validation Set Illusion):
AI 의 학습 방법 (하이퍼파라미터) 을 고를 때, 보통은 **학습용 데이터 외에 별도의 '시험지 (검증 데이터)'**를 많이 만들어서 최적의 설정을 찾습니다. 하지만 현실 세계에서는 새로운 일을 배울 때 추가적인 정답 데이터 (시험지) 를 구하기 어렵습니다. 마치 "실전 시험을 보기 전에, 실전과 똑같은 문제를 100 개 풀어서 답을 외우고 시험을 보는" 것과 같아서, 실제 상황에서는 통하지 않는 가짜 실력을 측정하고 있었습니다.

저자들은 이 문제를 해결하기 위해 FEWTRANS라는 새로운 평가 도구를 만들었습니다.

📏 10 가지 다양한 시나리오: AI 가 다양한 분야 (꽃, 비행기, 식물 병, 위성 사진 등) 에서 적은 데이터로 얼마나 잘 적응하는지 10 가지 다른 환경에서 테스트합니다.
🎲 여러 번의 추첨: 한 번만 뽑는 게 아니라, 수천 번의 다양한 데이터 조합으로 테스트하여 '운'의 영향을 없앱니다.
🤝 지혜의 모음 (HPE): 검증 데이터가 없어도 되게, 여러 가지 학습 설정을 동시에 적용해서 그 결과를 평균내는 방식을 썼습니다. 마치 "한 명만 답을 맞추는 게 아니라, 여러 전문가들이 각자 다른 방법으로 풀어서 가장 합리적인 답을 고르는" 방식입니다. 이렇게 하면 특정 설정에 의존하지 않는 튼튼한 AI를 찾을 수 있습니다.

가장 충격적인 결과는 무엇일까요?

🏆 단순한 '전체 수정 (Full Fine-tuning)'이 최고:
많은 연구자들이 "데이터가 적을 때는 AI 의 일부만 살짝 건드리는 (LoRA, 어댑터 등) 복잡한 방법"이 더 낫다고 주장했습니다. 하지만 FEWTRANS 로 테스트해보니, AI 의 모든 파라미터를 다 수정하는 '전체 수정' 방식이 가장 잘 작동했습니다.
- 왜 그럴까요? AI 는 전체를 다 수정하더라도, 원래 알고 있던 지식을 잃지 않으면서 아주 미세하게 (마치 미세 조정처럼) 새로운 상황에 맞춰 스스로를 바꿉니다. 마치 유리잔을 깨뜨리지 않고, 아주 살짝만 눌러서 모양을 바꾸는 것과 같습니다.
🗣️ 언어의 장벽 (텍스트 도메인 시프트):
특히 CLIP 같은 '이미지 + 텍스트' AI 는 새로운 분야 (예: 버섯 종류, 식물 병) 에서 실력이 급격히 떨어졌습니다. 이유는 단어가 너무 생소해서입니다. AI 가 배운 일반적인 언어로는 "아그라리쿠스 커프레오브루네우스 (특정 버섯 이름)" 같은 전문 용어를 이해하지 못하기 때문입니다. 이럴 때는 텍스트를 무시하고 이미지 자체를 학습하는 것이 더 나았습니다.

"AI 를 평가할 때는 '운'과 '가짜 시험지'를 없애고, 복잡한 기술보다는 단순하지만 튼튼한 '전체 수정' 방식이 적은 데이터로도 가장 잘 작동한다는 사실을 증명했습니다. 이제 AI 연구자들은 더 현실적인 기준에서 진짜 혁신을 찾아야 합니다."

이 논문은 AI 연구자들이 "어떻게 하면 더 많은 점수를 받을까?"가 아니라, **"어떻게 하면 실제 세상에서 더 잘 작동할까?"**를 고민하게 만드는 나침반이 될 것입니다.

유사한 논문