Vision Transformers that Never Stop Learning

이 논문은 비전 트랜스포머 (ViT) 에서 발생하는 가소성 손실의 원인을 규명하고, 재초기화 방식의 실패를 지적하며 곡률 추정을 통해 경사 방향을 적응적으로 재구성하는 새로운 옵티마이저 'ARROW'를 제안하여 지속적인 학습 능력을 향상시키는 방법을 제시합니다.

Caihao Sun, Mingqi Yuan, Shiyuan Wang, Jiayu Chen

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧠 핵심 주제: "배우는 게 멈추는 현상"

인공지능도 사람처럼 계속 새로운 일을 배우려 하면, 나중에는 머리가 굳어서 새로운 것을 받아들이지 못하게 됩니다. 이를 **'학습 능력의 마비 (Loss of Plasticity)'**라고 합니다.

기존 연구들은 이 문제가 단순한 신경망 (MLP) 에서 일어난다고만 알았지만, 이 논문은 **"최신형 AI 인 '비전 트랜스포머 (ViT)'에서도 똑같은 일이, 그리고 더 복잡하게 일어난다"**는 것을 발견했습니다.

🔍 문제 진단: ViT 의 '뇌'가 어떻게 굳어졌나?

ViT 는 크게 두 가지 부품으로 이루어져 있습니다.

  1. 주의 집중 모듈 (Attention): "이게 중요해, 저건 중요하지 않아"라고 핵심을 짚어주는 역할.
  2. 전달 신경망 (FFN): 정보를 처리하고 변형시키는 역할.

연구진은 ViT 가 200 개의 새로운 과제 (예: 고양이 사진, 자동차 사진 등) 를 순서대로 배울 때发生了什么을 분석했습니다.

  • 비유: ViT 를 거대한 도서관이라고 상상해 보세요.
    • 초반 (얕은 층): 도서관 입구 근처는 항상 활기차고 새로운 책이 잘 들어옵니다.
    • 후반 (깊은 층): 도서관 깊숙한 곳으로 갈수록, 책장 (파라미터) 이 꽉 차서 새로운 책이 들어갈 공간이 없어집니다.
    • 특이점: 특히 **전달 신경망 (FFN)**이라는 구역이 가장 먼저 '꽉 차서' 새로운 정보를 받아들이지 못하게 됩니다. 마치 도서관의 창고 공간이 완전히 막혀버린 것처럼요.
    • 주의 집중 모듈도 초반에는 잘 작동하다가, 깊어질수록 불안정해지며 흔들립니다.

🛠️ 기존 해결책의 실패

연구진은 기존에 쓰이던 방법들을 시도해 보았습니다.

  • 방법: "배운 것을 잊고 다시 시작하자 (재초기화)"거나 "학습 속도를 조절하자".
  • 결과: 실패했습니다. ViT 는 구조가 너무 복잡해서 단순히 부품을 교체하거나 학습 속도를 조절하는 것만으로는 다시 유연해지지 않았습니다.

✨ 새로운 해결책: 'ARROW' (화살표)

저자들은 **"학습 방향을 다시 꺾어주자"**는 아이디어를 냈습니다.

  • 비유:
    • 기존 AI 는 미끄러운 언덕을 내려가듯 학습합니다. 처음에는 잘 내려가지만, 나중에는 특정 골짜기 (과거의 지식) 에 갇혀서 더 이상 움직일 수 없게 됩니다.
    • ARROW나침반과 지형도를 가진 새로운 조종사입니다.
    • AI 가 학습할 때, "지금 이 방향은 너무 많이 갔으니, 조금 옆으로 비틀어서 새로운 길을 찾아보자"라고 학습 방향 (기울기) 을 실시간으로 수정해 줍니다.
    • 특히 **새로운 정보 (곡률)**를 감지하여, AI 가 갇히지 않고 새로운 공간으로 뻗어갈 수 있도록 도와줍니다.

📊 결론: 왜 중요한가?

  • 기존 방법 vs ARROW:
    • 기존 방법 (TRAC 등) 은 학습 속도를 조절하는 정도였지만, ARROW는 학습이 어느 방향으로 흐르는지를 지형에 맞춰 바꿉니다.
    • 실험 결과, ARROW 를 쓴 AI 는 200 개의 과제를 배워도 성능이 떨어지지 않고, 새로운 것을 배우는 능력 (유연성) 을 유지했습니다.

💡 한 줄 요약

"최신 AI 모델이 계속 배우다가 머리가 굳는 현상을 발견했고, 단순히 속도를 조절하는 게 아니라 '학습 방향'을 지형에 맞춰 유연하게 꺾어주는 새로운 기술 (ARROW) 로 이 문제를 해결했다."

이 기술은 AI 가 평생 동안 새로운 일을 배우고 적응할 수 있게 만들어, 더 똑똑하고 유연한 인공지능을 만드는 데 큰 도움이 될 것입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →