Solving adversarial examples requires solving exponential misalignment

Each language version is independently generated for its own context, not a direct translation.

1. 핵심 비유: "거대한 방" vs "작은 책상"

이 논문의 가장 중요한 발견은 **인간과 AI 가 세상을 바라보는 방식의 '차원 (Dimension)'**에 있습니다.

인간의 인식 (작은 책상):
인간이 '고양이'라고 인식하는 이미지들은 아주 정교하고 제한된 공간에 모여 있습니다. 마치 거대한 도서관의 작은 책상 하나 위에 고양이 사진들이 neatly(정돈되게) 놓여 있는 것과 같습니다. 이 책상의 크기는 아주 작고, 그 주변은 텅 비어 있습니다.
- 논문에서: 인간의 '고양이' 개념은 약 20 차원 정도의 작은 공간에 존재합니다.
AI 의 인식 (거대한 방):
반면, AI 가 '고양이'라고 인식하는 이미지들은 그 작은 책상이 아니라, 거대한 도서관 전체를 채우고 있습니다. AI 는 고양이 사진뿐만 아니라, 고양이와 전혀 상관없는 잡음 (노이즈) 이 섞인 이상한 그림들까지도 "아, 이건 고양이네!"라고 확신하며 받아들입니다.
- 논문에서: AI 의 '고양이' 개념은 약 3,000 차원 (CIFAR-10 기준) 이나 되는 거대한 공간을 차지합니다.

2. 왜 문제가 생길까요? "공간의 혼잡함"

이제 이 비유를 바탕으로 적대적 예제 (Adversarial Examples) 가 왜 생기는지 설명해 보겠습니다.

상황: AI 의 인식 공간 (거대한 방) 은 거의 도서관 전체를 다 채우고 있습니다.
결과: 도서관 어딘가에 '개' 사진이 있든, '비행기' 사진이 있든, 심지어는 아무것도 없는 '흰색 잡음'이 있든, 그 모든 것이 AI 의 '고양이 방'에서 아주 가깝게 위치하게 됩니다.
문제: AI 는 '고양이' 영역이 너무 넓게 퍼져있기 때문에, '개' 사진에서 아주 미세하게만 (눈에 보이지 않게) 픽셀을 건드리면, 그 사진이 AI 의 '고양이 방' 안으로 툭 하고 넘어가 버립니다.
- 인간에게는 여전히 '개'로 보이지만, AI 에겐 "아, 이거 이제 고양이네!"라고 확신하게 됩니다.

한 줄 요약: AI 가 '고양이'를 정의하는 범위가 너무 넓고 거대해서, 다른 어떤 것이라도 살짝만 건드리면 고양이 영역으로 넘어가 버리는 것입니다.

3. 해결책은 무엇인가요? "방을 줄이기"

논문은 이 문제를 해결하는 열쇠는 AI 의 인식 공간을 인간처럼 작게 만드는 것이라고 말합니다.

현재의 AI: 거대한 방을 채우고 있어서, 어디를 가나 AI 의 영역과 부딪힙니다. (적대적 공격에 취약)
목표: AI 가 '고양이'라고 인식하는 영역을 인간처럼 작은 책상 크기로 줄여야 합니다.
- 영역이 작아지면, '개' 사진이나 '잡음'은 그 책상에서 훨씬 멀어집니다.
- 그러면 아주 작은 변화만으로는 그 책상 (고양이 영역) 에 도달할 수 없게 되어, AI 는 더 이상 속지 않게 됩니다.

4. 흥미로운 발견: "완벽한 AI 는 아직 없다"

연구진은 가장 튼튼하게 훈련된 AI 모델들까지 분석해 보았습니다.

결과: 아무리 튼튼한 AI 라도, 여전히 인간의 인식 공간보다 훨씬 거대한 영역을 차지하고 있었습니다. 완전히 해결된 것은 아닙니다.
희망의 신호: 하지만, 가장 튼튼한 AI 들 중에서는 '고양이'처럼 차원이 낮은 (인간과 비슷한) 개념을 다룰 때, 비로소 AI 가 만들어내는 이미지가 인간이 볼 수 있는 '고양이'처럼 보이기도 했습니다. 이는 인간과 AI 의 인식 세계를 '크기 (차원)' 측면에서 맞추는 것이 해결의 첫걸음임을 시사합니다.

5. 결론: "정렬 (Alignment) 이란 무엇인가?"

이 논문은 AI 안전 (Alignment) 분야에서 매우 중요한 메시지를 줍니다.

"우리가 AI 를 인간과 같은 가치관을 갖게 하려면, 먼저 AI 가 세상을 바라보는 '렌즈의 크기'를 인간과 똑같이 맞춰야 한다."

AI 가 인간처럼 세상을 좁고 정확하게 인식하지 않는 한, 아무리 많은 데이터를 주고 훈련시켜도 AI 는 인간의 눈에는 보이지 않는 작은 변화에 속아 넘어가는 '적대적 예제'의 늪에서 빠져나오지 못할 것입니다.

요약하자면:
AI 가 '고양이'를 인식하는 공간이 너무 넓어서 (거대한 방), 다른 것들도 쉽게 그 안으로 들어와 버립니다. 이 문제를 해결하려면 AI 가 인식하는 공간을 인간처럼 작고 정교하게 (작은 책상처럼) 줄여야 합니다. 이것이 바로 AI 를 안전하게 만드는 첫걸음입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

적대적 예제 (Adversarial Examples) 의 지속성: 신경망은 인간에게는 거의 감지되지 않는 작은 입력 교란 (perturbation) 에 의해 분류를 잘못하도록 속일 수 있습니다. 이는 10 년 이상 지속된 머신러닝의 주요 실패 모드 중 하나입니다.
근본 원인의 미스터리: 왜 표준 신경망에서는 어떤 이미지든 다른 클래스의 이미지와 매우 가깝게 존재하며, 이를 제거하기가 왜 이렇게 어려운지에 대한 기하학적 이유는 여전히 명확하지 않았습니다.
기존 연구의 한계: 선형성, 비강건한 특징 의존성, 고차원 기하학 등 다양한 가설이 제시되었으나, 강력한 보편적 방어 전략이나 근본적인 설명은 부재했습니다.

2. 방법론 (Methodology)

이 논문은 **지각 다양체 (Perceptual Manifold, PM)**라는 새로운 개념을 도입하여 문제를 접근합니다.

지각 다양체 (PM) 의 정의: 네트워크가 특정 클래스 개념 (예: '고양이') 에 대해 높은 확신 (예: $p > 0.9$ $p > 0.9$ ) 으로 분류하는 모든 입력 $x$ $x$ 의 집합을 정의합니다.
- 수식: $PM \equiv \{x \in [0, 1]^D \mid p(c|x) > p_0\}$
PM 샘플링: 무작위 노이즈 이미지에서 시작하여 **프로젝션된 경사 상승법 (Projected Gradient Ascent, PGA)**을 사용하여 해당 클래스의 PM 을 구성하는 이미지들을 생성합니다.
차원성 측정: 생성된 PM 샘플들의 내재적 차원 (Intrinsic Dimension) 을 측정하기 위해 두 가지 지표를 사용합니다.
1. 참여 비율 (Participation Ratio, PR): 공분산 행렬의 고유값을 기반으로 유효 차원을 추정.
2. 두 최근접 이웃 (Two Nearest Neighbors, 2NN): 샘플 간의 거리 분포를 통해 내재적 차원을 추정 (하한치로 간주).
비교 대상: 기계가 생성한 PM 과 인간이 자연스럽게 인식하는 이미지 (자연 이미지) 의 다양체 차원을 비교합니다.
실험 범위: CIFAR-10, ImageNet-1K, CLIP 모델 등 다양한 데이터셋과 모델 (RobustBench 리더보드 기준, 다양한 강건성 수준) 에 대해 실험을 수행했습니다.

3. 주요 기여 및 핵심 발견 (Key Contributions & Results)

가. 지수적 불일치 (Exponential Misalignment) 의 발견

차원의 격차: 기계의 PM 차원은 인간의 자연 이미지 다양체 차원보다 수십 배에서 수천 배 더 큽니다.
- CIFAR-10: 인간 이미지 차원 $\approx 20$ vs. 표준 모델 PM 차원 $\approx 3,000$ (전체 공간 3,072 차원 중 거의 모두 차지).
- ImageNet: 인간 이미지 차원 $\approx 20$ vs. 표준 ResNet-50 PM 차원 $\approx 130,000$ (전체 공간 150,528 차원 중 대부분 차지).
지수적 불일치의 의미: 차원이 높을수록 부피는 지수적으로 증가합니다. 즉, 기계는 인간이 인식하지 못하는 (노이즈처럼 보이는) 무수히 많은 이미지를 특정 클래스로 "강력하게" 인식하고 있습니다. 이것이 기계와 인간 인식 사이의 지수적 불일치입니다.

나. 적대적 예제의 기하학적 기원

공간 채움 (Space Filling): 기계의 PM 이 입력 공간의 거의 대부분을 채우기 때문에, 임의의 입력 (예: '개' 이미지) 은 다른 클래스의 PM (예: '고양이' PM) 에서 매우 가깝게 위치하게 됩니다.
거리와 취약성: 고차원 기하학 이론과 토이 모델 (타원체 모델) 을 통해, PM 의 차원이 높을수록 임의의 점과 PM 사이의 거리가 급격히 줄어든다는 것을 증명했습니다.
- 결과: 입력이 PM 에 매우 가까우므로, 작은 교란 ( $\epsilon$ -ball) 만으로도 다른 클래스의 PM 으로 쉽게 이동하여 적대적 공격이 성공합니다.

다. 강건성과 차원 축소 간의 상관관계

예측 검증: "강건한 모델일수록 PM 의 차원이 낮아져야 한다"는 가설을 검증했습니다.
- 결과: RobustBench 의 18 개 모델 분석 결과, 적대적 강건성 (Robust Accuracy) 이 높을수록 PM 의 차원 (PR 및 2NN) 이 유의미하게 감소하는 강한 음의 상관관계를 확인했습니다.
- 거리 증가: PM 차원이 낮아질수록, 임의의 점 (또는 자연 이미지) 에서 PM 까지의 거리가 증가하여 적대적 공격이 어려워집니다.
완전한 해결의 부재: 가장 강건한 모델조차도 인간의 PM 차원 (약 20) 에는 미치지 못하며 여전히 지수적 불일치를 겪고 있습니다. 하지만 차원이 가장 낮은 클래스들에서만 인간이 인식할 수 있는 의미 있는 이미지 (말, 개 등) 가 PM 샘플에서 관찰되었습니다.

라. CLIP 및 대규모 모델에 대한 일반화

CLIP 과 같은 기초 모델 (Foundation Models) 에서도 동일한 현상이 관찰되었습니다. 의미 있는 프롬프트뿐만 아니라 의미 없는 gibberish 프롬프트에 대해서도 PM 차원이 매우 높게 나타나, 기계가 인간의 의미론적 이해와 완전히 동떨어져 있음을 보여줍니다.

4. 의의 및 결론 (Significance)

적대적 예제와 AI 정렬 (Alignment) 의 연결: 적대적 예제의 근본 원인이 단순한 알고리즘적 결함이 아니라, **기계와 인간의 지각 다양체 간의 '지수적 불일치'**에 있음을 규명했습니다. 이는 적대적 예제 문제를 AI 정렬 (인간 가치와의 정렬) 의 관점에서 바라보게 합니다.
새로운 방어 전략의 방향 제시: 기존의 적대적 훈련 (Adversarial Training) 만으로는 부족하며, 기계 모델의 PM 차원을 인간의 자연 이미지 차원 수준으로 낮추는 (Dimensional Alignment) 것이 적대적 강건성을 달성하기 위한 필수 전제 조건임을 시사합니다.
고차원의 저주 (Curse of Dimensionality) 재해석: 고차원 공간에서의 부피 집중 현상이 적대적 취약성의 핵심 원인임을 명확히 했습니다.
미래 전망: 이 연구는 적대적 예제 해결을 넘어, 더 넓은 범위의 AI 정렬 문제 (텍스트, 추론 등) 에서도 기계가 인간과 동일한 저차원 의미 구조를 학습해야 함을 경고합니다.

요약하자면, 이 논문은 적대적 예제가 기계가 인간과 전혀 다른 방식으로 세상을 인식하고 (매우 높은 차원의 PM 을 가짐), 이로 인해 입력 공간의 거의 모든 점이 기계의 분류 경계에 매우 가깝게 위치하기 때문에 발생한다고 주장합니다. 따라서 진정한 해결책은 기계의 지각 방식을 인간의 저차원 지각 구조에 정렬시키는 데 있습니다.