Layer by layer, module by module: Choose both for optimal OOD probing of ViT

이 논문은 사전 학습된 비전 트랜스포머 (ViT) 의 중간 레이어가 분포 변화에 따라 최적의 성능을 내는 위치가 달라지며, 심한 분포 변화 시에는 피드포워드 네트워크 내부 활성화가, 약한 변화 시에는 멀티헤드 셀프 어텐션의 정규화된 출력이 각각 최적의 OOD 탐지 지점임을 규명합니다.

Ambroise Odonnat, Vasilii Feofanov, Laetitia Chapel, Romain Tavenard, Ievgen Redko

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 가 새로운 세상을 만나면, 어디를 봐야 가장 똑똑하게 반응할까?"**라는 질문에서 시작합니다.

요약하자면, 이 연구는 거대한 AI 모델 (비전 트랜스포머) 이 훈련된 데이터와 다른 새로운 데이터 (예: 눈이 내리거나 흐릿한 사진) 를 볼 때, 모델의 '마지막 단계'보다 '중간 단계'가 더 잘 작동한다는 사실을 발견했습니다. 그리고 단순히 중간 단계만 보는 게 아니라, 어떤 부품을 확인하느냐에 따라 결과가 달라진다는 놀라운 사실을 밝혀냈습니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 배경: 거대한 도서관과 새로운 손님

상상해 보세요. 거대한 **AI 도서관 (기초 모델)**이 있습니다. 이 도서관은 수백만 권의 책 (이미지 데이터) 을 읽으며 지식을 쌓았습니다. 보통은 이 도서관의 **마지막 책장 (최종 레이어)**에 있는 요약본을 보면 모든 것을 가장 잘 이해할 수 있다고 믿었습니다.

하지만 문제는, 이 도서관에 **새로운 손님 (새로운 데이터)**이 들어왔을 때입니다.

  • 정상적인 손님 (ID 데이터): 도서관이 익숙한 책과 비슷한 옷을 입은 손님. (예: 맑은 날 찍은 고양이 사진)
  • 낯선 손님 (OOD 데이터): 도서관이 본 적 없는 옷을 입거나, 눈보라를 맞고 온 손님. (예: 흐릿하거나 눈이 덮인 고양이 사진)

연구진은 "이 낯선 손님을 볼 때, 마지막 책장의 요약본을 보는 게 정말 최선일까?"라고 의문을 품었습니다.

2. 핵심 발견 1: "마지막 책장은 너무 전문화되어 있다"

실험 결과, **새로운 손님 (데이터 편향)**이 들어오면 **마지막 책장 (최종 레이어)**은 오히려 당황해서 엉뚱한 대답을 하기 시작했습니다.

  • 비유: 마지막 책장은 "우리가 배운 대로만 답해야 한다"는 강박에 사로잡혀 있습니다. 눈이 내리는 고양이를 볼 때, "이건 고양이가 아니야!"라고 외치거나 혼란스러워하는 것입니다.
  • 반면, 중간 책장 (중간 레이어): 아직 전문화되지 않아서 유연합니다. "아, 고양이는 고양이인데 눈이 좀 묻어 있구나"라고 유연하게 받아들이고 더 정확한 정보를 제공합니다.

결론: 데이터가 훈련 데이터와 많이 다를수록, 중간 단계를 보는 것이 마지막 단계보다 훨씬 똑똑합니다.

3. 핵심 발견 2: "중간 단계의 어떤 부품을 봐야 할까?"

그렇다면 중간 단계의 어떤 부분을 봐야 할까요? 연구진은 트랜스포머 모델이라는 복잡한 기계의 내부 부품을 하나하나 뜯어봤습니다.

이 기계는 크게 두 가지 작업을 반복합니다:

  1. 주목하기 (Attention): "이 부분이 중요해!"라고 집중하는 작업.
  2. 생각하기 (Feedforward): 집중된 정보를 바탕으로 깊이 생각해보는 작업.

연구진은 이 두 작업의 중간 과정을 살펴봤습니다.

  • 상황 A: 눈이 많이 내린 날 (데이터 편향이 심함)

    • 최고의 비법: "생각하기" 작업이 끝난 직후, **활성화 (Activation)**된 상태를 보는 것입니다.
    • 비유: 이는 마치 "생각을 정리해서 핵심 아이디어를 뽑아낸 직후"를 보는 것과 같습니다. 소음 (눈) 이 많을 때, 핵심 아이디어를 필터링한 상태가 가장 선명하게 들립니다.
    • 주의: "생각하기"를 끝내고 다시 압축하는 과정 (FC2) 은 피하세요. 정보가 너무 줄어서 뭉개져버립니다.
  • 상황 B: 날씨가 좋은 날 (데이터 편향이 약함)

    • 최고의 비법: "생각하기"를 시작하기 전, **정규화 (LayerNorm)**된 상태를 보는 것입니다.
    • 비유: 날씨가 좋으면 너무 깊게 생각할 필요 없이, 깔끔하게 정리된 초기 상태만 봐도 충분합니다.

4. 요약: 우리가 배운 교훈

이 논문의 결론은 매우 실용적입니다.

  1. AI 를 사용할 때, 무조건 마지막 결과를 믿지 마세요. 특히 환경이 변하거나 (날씨가 나빠지거나, 새로운 도메인), 데이터가 훈련 데이터와 다를 때는 중간 단계를 확인하는 것이 더 안전합니다.
  2. 어떤 중간 단계를 볼지는 상황에 따라 달라집니다.
    • 혼란스러운 상황 (OOD): "생각하기" 부품이 작동한 직후의 활성화 신호를 확인하세요. (가장 강력함)
    • 평범한 상황 (ID): 그냥 마지막 결과를 보거나, "생각하기" 전의 정리된 상태를 보세요.

한 줄 요약

"AI 가 낯선 상황을 마주할 때, 마지막 결론을 믿기보다 '생각하는 과정'의 중간에 있는 핵심 아이디어를 확인하는 것이 더 똑똑한 방법입니다."

이 연구는 AI 가 실전에서 더 튼튼하게 작동하도록, 우리가 어디를 집중해서 봐야 하는지에 대한 나침반을 제공해 줍니다.