원저자: Alexander Murphy, Michal Danilowski, Soumyajit Chatterjee, Abhirup Ghosh

게시일 2026-05-12✓ Author reviewed ⓘ

📖 4 분 읽기☕ 가벼운 읽기

원저자: Alexander Murphy, Michal Danilowski, Soumyajit Chatterjee, Abhirup Ghosh

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

다음은 "NEO — 잠재 공간 재중앙화를 통한 최적화 없는 테스트 시간 적응"이라는 논문에 대한 설명을 쉬운 언어와 창의적인 비유로 번역한 것입니다.

큰 문제: "새로운 환경" 충격

수천 장의 완벽한 스튜디오 조명 사진을 이용해 로봇이 고양이를 인식하도록 훈련시켰다고 상상해 보세요. 로봇은 이 부분에서 천재입니다. 하지만 비와 안개가 낀 날 로봇을 데리고 밖으로 나가 고양이를 찾으라고 하면 이야기가 달라집니다. 사진들은 흐릿하고 어둡며 물방울로 덮여 있습니다. 완벽한 데이터로 훈련된 로봇은 혼란에 빠지고 실패하기 시작합니다.

머신러닝에서 이를 분포 변화 (distribution shift) 라고 합니다. 모델이 현실 세계에서 보는 데이터 (목표) 와 훈련에 사용된 데이터 (원천) 가 다르기 때문입니다.

옛날 방식: 지치는 헬스장 운동

이를 해결하기 위해 이전 방법들은 로봇이 비 오는 사진을 보는 도중 실시간으로 로봇을 "재훈련"하려 했습니다.

비유: 로봇이 멈추고, 깊게 숨을 들이마신 뒤, 복잡한 계산을 수행하고, 내부 근육 (가중치) 을 조정한 다음 다시 시도해야 한다고 상상해 보세요.
문제점: 이는 많은 시간이 소요되고, 많은 배터리 (연산 능력) 를 소모하며, 많은 메모리가 필요합니다. 마치 시속 100 마일로 달리는 차를 운전하면서 엔진을 수리하려는 것과 같습니다. 느리고 비싸며, 때로는 로봇이 너무 혼란스러워 고양이를 인식하는 법을 완전히 잊어버리는 (재앙적 망각이라고 불리는 문제) 경우도 있습니다.

새로운 해결책: NEO (나침반 재설정)

저자들은 NEO(최적화 없는 테스트 시간 적응) 를 제안합니다. 로봇의 근육을 재훈련하는 대신, NEO 는 단순히 로봇의 시야를 재중앙화합니다.

핵심 아이디어: "이동하는 중심"

로봇이 비 오는 사진을 볼 때, 사물이 어떻게 보이는지에 대한 내부 "지도"가 약간 이동합니다. 이해의 중심이 있어야 할 곳에서 벗어나 표류하는 것입니다.

비유: 안개가 낀 숲속을 걷고 있다고 상상해 보세요. GPS 는 당신이 숲의 중심에 있다고 말하지만, 안개 때문에 당신이 100 피트 왼쪽으로 표류한 것처럼 느껴집니다. 당신은 다리를 다시 만들거나 걷는 법을 다시 배울 필요가 없습니다. 단지 "아, 나는 사실 100 피트 왼쪽에 있구나"라고 깨닫고 중심을 향해 한 걸음 다시 옮기면 됩니다.

NEO 는 정확히 이렇게 합니다:

새로운 비 오는 사진들의 한 묶음 (배치) 을 봅니다.
로봇의 내부 지도상에서 이 모든 사진들의 "평균" 위치를 계산합니다.
지도 전체가 이동했다는 것을 깨닫습니다.
모든 사진에서 그 이동분을 단순히 빼서, 지도를 다시 중심 (원점) 으로 끌어당깁니다.

이것이 마법 같은 이유는 무엇일까요?

헬스장 운동 없음: 로봇의 뇌를 업데이트하기 위해 복잡한 수학을 실행할 필요가 없습니다. 단순한 뺄셈만 수행합니다.
초고속: 무거운 작업을 건너뛰기 때문에, 아무것도 수정하지 않고 사진을 보는 것과 거의 같은 속도로 실행됩니다.
초소형 메모리: 전체 배치를 수정하기 위해 단 하나의 숫자(평균 이동분) 만 기억하면 됩니다. 두꺼운 교과서 대신 주머니에 작은 메모 한 장을 들고 다니는 것과 같습니다.

NEO 의 주요 특징

1. 거의 아무것도 없이 작동합니다
대부분의 방법은 어떻게 조정할지 파악하기 위해 엄청난 양의 새로운 사진이 필요합니다. NEO 는 효율성이 너무 뛰어나서 단 한 장의 사진이나 심지어 특정 유형의 고양이 사진만으로도 로봇의 시력을 수정할 수 있습니다.

비유: 흐릿한 고양이 사진 한 장을 보면, NEO 는 "오늘은 세상이 전체적으로 흐릿하구나"라고 말하고 나머지 사진들을 즉시 조정할 수 있습니다.

2. "하이퍼파라미터가 없습니다"
많은 AI 방법은 50 개의 조절 장치가 달린 라디오와 같습니다. 잘못된 것을 돌리면 소리가 끔찍해집니다. NEO 에는 조절 장치가 없습니다. 튜닝할 필요가 없습니다. 켜기만 하면 작동합니다.

3. 배터리를 절약합니다
논문에 따르면 NEO 는 라즈베리 파이(작은 컴퓨터) 나 제트슨 오린 나노(로봇/드론에 사용됨) 와 같은 소형 장치에서 테스트되었습니다.

결과: NEO 는 다른 방법들보다 63% 더 빠르고 메모리를 9% 적게 사용했습니다. 무거운 배낭과 깃털의 차이와 같습니다.

4. 로봇을 정직하게 유지합니다 (보정)
때때로 AI 는 지나치게 자신감을 갖습니다. 실제로는 고양이인데 "99% 확신으로 저것은 개입니다"라고 말할 수 있습니다. NEO 는 로봇을 더 정확하게 만들 뿐만 아니라 신뢰도 수준을 더 현실적으로 만듭니다. 로봇이 막연하게 추측하는 것을 멈추게 합니다.

"비밀 소스": 신경 붕괴 (Neural Collapse)

논문은 신경 붕괴 (Neural Collapse) 라는 개념을 사용하여 이 간단한 트릭이 왜 작동하는지 설명합니다.

비유: 로봇의 내부 지도를 무용단으로 생각하세요. 완벽하게 훈련되면 모두 매우 특정한 대칭적인 포메이션을 유지하며 서 있습니다. 날씨가 변할 때 (안개/비), 무용단 전체가 왼쪽으로 미끄러집니다.
NEO 는 각 무용수를 개별적으로 움직이려 하지 않습니다. 전체 그룹이 왼쪽으로 미끄러진 것을 알아차리고, 전체 그룹에게 오른쪽으로 다시 미끄러지라고 지시할 뿐입니다. 포메이션이 매우 대칭적이기 때문에 (신경 붕괴로 인해), 전체 그룹을 다시 이동시키는 것이 모두를 완벽하게 고칩니다.

요약

NEO는 재훈련이나 무거운 컴퓨터를 사용할 필요 없이 AI 모델이 새롭고 messy 한 현실 세계 조건에 적응하도록 돕는 경량이고 초고속인 방법입니다.

옛날 방식: 멈추고, 재훈련하고, 많은 전력을 사용하며, 기존 기술을 잊을 위험이 있습니다.
NEO 방식: "hey, 지도가 이동했어. 그냥 다시 이동시켜 보자." (빠르고, 무료이며, 정확함).

이 논문은 표준 이미지 테스트 (ImageNet 등) 에서 7 가지 최상위 방법보다 더 잘 작동하며, 소형 배터리 구동 장치에서 효율적으로 실행된다고 주장합니다.

기술 요약: NEO — 잠재 공간 재중앙화를 통한 최적화 없는 테스트 시간 적응

문제 정의

테스트 시간 적응 (TTA) 은 배포 데이터 분포가 학습 분포에서 이동할 때 (예: 눈, 안개, 흐림으로 손상된 이미지) 모델 성능을 유지하는 과제를 해결합니다. 기존 TTA 방법들은 다음과 같은 중대한 한계를 안고 있습니다:

계산 비용: 많은 방법들이 역전파 기반 업데이트 (예: TENT, SAR) 에 의존하여 높은 메모리 소비와 추론 지연을 초래하며, 이는 엣지 장치에는 금지적입니다.
데이터 요구 사항: 일부 방법은 견고한 통계를 계산하기 위해 대량의 배치나 광범위한 타겟 데이터를 필요로 합니다.
하이퍼파라미터 민감성: 성능은 종종 비최적의 하이퍼파라미터 선택으로 인해 저하되며, 일부 방법은 파국적 망각 (catastrophic forgetting) 에 시달립니다.
아키텍처 제약: 특정 접근법들은 배치 정규화 레이어와 같은 특정 아키텍처 구성 요소에 의존하여 비전 트랜스포머 (ViT) 와 같은 현대적 아키텍처로의 적용을 제한합니다.

목표는 소스 데이터가 전혀 필요 없고, 하이퍼파라미터가 없거나 최소화되었으며, 계산 효율적이고 다양한 분포 이동 및 모델 아키텍처 전반에 걸쳐 견고한 TTA 방법을 개발하는 것입니다.

방법론: NEO

저자들은 역전파, 소스 데이터, 또는 상당한 계산 오버헤드 없이 모델을 적응시키는 완전한 TTA 방법인 NEO(No-Optimization) 를 제안합니다. 핵심 통찰력은 잠재 공간의 기하학적 구조와 신경 붕괴 (neural collapse) 현상에 기반합니다.

이론적 기반

잠재 이동 구조: 저자들은 입력 분포 이동이 penultimate layer 임베딩 ( $h(\tilde{x})$ ) 의 구조적 이동을 유발한다고 관찰합니다. 중요한 점은 이 이동이 무작위 노이즈가 아니라 샘플과 클래스 간에 전역적으로 공유되는 변위라는 것입니다.
신경 붕괴: 신경 붕괴 가정 하에 (클래스 평균이 심플렉스 등각 정밀 프레임의 꼭짓점으로 수렴하고 임베딩의 전역 평균이 원점으로 수렴하는 경우, $\mu_G = 0$ ), 손상된 데이터의 이동 ( $\tilde{\mu}_G$ ) 은 원래 분포 기하학을 복원하는 데 필요한 전역 정렬 벡터를 효과적으로 나타냅니다.
전역 재중앙화: 이 논문은 신경 붕괴 가정 하에 손상된 배치의 추정된 전역 평균 ( $\tilde{\mu}_G$ ) 을 빼서 손상된 임베딩을 이동시키는 것이 수학적으로 손상된 잠재 공간과 소스 공간을 정렬하는 것과 동등함을 증명합니다. 이 재중앙화는 임베딩과 분류기 가중치 간의 코사인 유사성을 복원하여 분류 정확도를 결정합니다.

알고리즘

NEO 는 손상된 임베딩의 전역 중심점 ( $\tilde{\mu}_G$ ) 에 대한 실행 추정치를 유지하고, 분류 전에 테스트 시간 특징에서 이 벡터를 빼는 방식으로 작동합니다.

업데이트 규칙: 각 배치 $B$ 에 대해 전역 평균은 점진적으로 업데이트됩니다:
$\tilde{\mu}_G \leftarrow \frac{i-1}{i} \tilde{\mu}_G + \frac{1}{i} \text{Avg}(h(B))$
여기서 $i$ 는 배치 횟수입니다.
적응: 예측은 재중앙화된 특징에 대해 수행됩니다: $y = \theta(h(B) - \tilde{\mu}_G)$ .
구현: 이는 표준 ViT 구현에서 마지막 선형 레이어를 뺄셈을 수행하는 사용자 정의 레이어로 교체하는 단일 줄의 코드 변경만 필요합니다.
연속 변형 (NEO-Cont.): 진화하는 분포를 위해, 연속 버전은 단일 하이퍼파라미터 $\alpha$ 를 가진 지수 이동 평균 (EMA) 을 사용하여 특징 심플렉스 평균을 추적합니다.

주요 기여

새로운 TTA 방법: 전역 중심점 추정을 사용하여 임베딩을 재중앙화하는 경량 최적화 없는 TTA 방법인 NEO 의 도입. 이는 소스 데이터를 필요로 하지 않으며 지연 시간이나 메모리 오버헤드를 거의 추가하지 않습니다.
이론적 통찰: 입력 분포 이동과 잠재 공간 기하학을 연결하는 철저한 조사. 저자들은 이러한 이동을 신경 붕괴와 연결하여, 클래스별 통계 없이도 전역 재중앙화 (원점 중심화) 가 적응에 충분하다는 원리 있는 설명을 제공합니다.
효율성과 다양성: NEO 가 단일 샘플이나 단일 클래스로도 적응할 수 있으며, 연속 적응으로 자연스럽게 확장됨을 입증했습니다. 엣지 장치 (Raspberry Pi, Jetson Orin Nano) 와 클라우드 서버 모두에서 낮은 리소스 사용량을 유지합니다.
종합적 평가: 4 개의 데이터셋 (ImageNet-C, CIFAR-10-C, ImageNet-R, ImageNet-S) 과 3 개의 ViT 아키텍처 (ViT-S, ViT-Base, ViT-L) 를 통한 광범위한 실험.

실험 결과

정확도: ImageNet-C 에서 단 512 개의 샘플로 적응할 때, NEO 는 ViT-Base 로 **59.2%**의 정확도를 달성하여 비교된 7 개의 모든 베이스라인 (T3A, SAR, LAME, TENT, CoTTA, FOA, Surgeon) 을 능가했습니다. 적응이 없는 베이스라인 (55.6%) 대비 평균적으로 정확도를 3.6% 향상시켰습니다. "Contrast" 손상과 같은 특정 사례에서는 적응이 없는 경우 대비 정확도가 거의 두 배가 되었습니다.
견고성: NEO 는 하이퍼파라미터 선택에 견고합니다 (표준 버전은 하이퍼파라미터가 없음) 그리고 파국적 망각을 겪지 않습니다. 단 1 개의 샘플이나 1 개의 클래스로 적응할 때에도 정확도를 향상시킵니다.
보정: NEO 는 기대 보정 오차 (ECE) 를 개선하여 베이스라인보다 더 신뢰할 수 있는 예측을 생성합니다.
효율성:
- 지연 시간: NEO 는 일반 추론에 비해 유의미한 추론 시간을 추가하지 않습니다. 엣지 장치에서는 역전파가 필요한 베이스라인에 비해 추론 시간을 63% 단축합니다.
- 메모리: NEO 는 엣지 장치에서 베이스라인 대비 메모리 사용량을 9% 줄입니다. 적응 중 피크 메모리 사용량을 증가시키지 않는 유일한 방법입니다.
일반화: 이 방법은 다양한 손상 유형과 모델 크기 (ViT-S, ViT-Base, ViT-L) 전반에 걸쳐 일관된 성능을 발휘합니다.

중요성과 주장

이 논문은 NEO 가 실제 세계의 리소스 제약이 있는 배포를 위한 테스트 시간 적응을 실용화하는 중요한 진전이라고 주장합니다. 신경 붕괴의 기하학적 속성을 활용함으로써 NEO 는 값비싼 최적화 루프와 대규모 데이터셋의 필요성을 제거합니다.

저자들은 NEO 가 다음과 같음을 강조합니다:

우아하고 단순함: 최소한의 코드 변경만 요구함.
리소스 효율적: 메모리와 지연 시간이 중요한 제약 조건인 엣지 컴퓨팅에 적합함.
견고함: 희소한 데이터 (단일 샘플 적응) 와 불균형한 클래스 분포에서도 효과적임.
이론적 기반: 분포 이동이 잠재 공간에 미치는 영향과 이를 분석적으로 어떻게 교정할 수 있는지에 대한 새로운 관점 제공.

이 연구는 임베딩의 구조적 기하학을 이해하는 것이 경사 기반 적응에 대한 강력한 대안을 제공하며, 효율적이고 최적화 없는 TTA 방법의 추가 개발을 촉발할 수 있음을 시사합니다.

NEO: No-Optimization Test-Time Adaptation through Latent Re-Centering