Solving adversarial examples requires solving exponential misalignment

이 논문은 신경망의 지각 매니폴드 차원이 인간 개념보다 훨씬 커서 발생하는 기하학적 불일치가 적대적 예시의 근본 원인이며, 이를 해결하기 위해서는 기계와 인간의 차원 정렬이 필수적임을 18 개의 네트워크 실험을 통해 증명합니다.

Alessandro Salvatore, Stanislav Fort, Surya Ganguli

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 핵심 비유: "거대한 방" vs "작은 책상"

이 논문의 가장 중요한 발견은 **인간과 AI 가 세상을 바라보는 방식의 '차원 (Dimension)'**에 있습니다.

  • 인간의 인식 (작은 책상):
    인간이 '고양이'라고 인식하는 이미지들은 아주 정교하고 제한된 공간에 모여 있습니다. 마치 거대한 도서관의 작은 책상 하나 위에 고양이 사진들이 neatly(정돈되게) 놓여 있는 것과 같습니다. 이 책상의 크기는 아주 작고, 그 주변은 텅 비어 있습니다.

    • 논문에서: 인간의 '고양이' 개념은 약 20 차원 정도의 작은 공간에 존재합니다.
  • AI 의 인식 (거대한 방):
    반면, AI 가 '고양이'라고 인식하는 이미지들은 그 작은 책상이 아니라, 거대한 도서관 전체를 채우고 있습니다. AI 는 고양이 사진뿐만 아니라, 고양이와 전혀 상관없는 잡음 (노이즈) 이 섞인 이상한 그림들까지도 "아, 이건 고양이네!"라고 확신하며 받아들입니다.

    • 논문에서: AI 의 '고양이' 개념은 약 3,000 차원 (CIFAR-10 기준) 이나 되는 거대한 공간을 차지합니다.

2. 왜 문제가 생길까요? "공간의 혼잡함"

이제 이 비유를 바탕으로 적대적 예제 (Adversarial Examples) 가 왜 생기는지 설명해 보겠습니다.

  • 상황: AI 의 인식 공간 (거대한 방) 은 거의 도서관 전체를 다 채우고 있습니다.
  • 결과: 도서관 어딘가에 '개' 사진이 있든, '비행기' 사진이 있든, 심지어는 아무것도 없는 '흰색 잡음'이 있든, 그 모든 것이 AI 의 '고양이 방'에서 아주 가깝게 위치하게 됩니다.
  • 문제: AI 는 '고양이' 영역이 너무 넓게 퍼져있기 때문에, '개' 사진에서 아주 미세하게만 (눈에 보이지 않게) 픽셀을 건드리면, 그 사진이 AI 의 '고양이 방' 안으로 툭 하고 넘어가 버립니다.
    • 인간에게는 여전히 '개'로 보이지만, AI 에겐 "아, 이거 이제 고양이네!"라고 확신하게 됩니다.

한 줄 요약: AI 가 '고양이'를 정의하는 범위가 너무 넓고 거대해서, 다른 어떤 것이라도 살짝만 건드리면 고양이 영역으로 넘어가 버리는 것입니다.

3. 해결책은 무엇인가요? "방을 줄이기"

논문은 이 문제를 해결하는 열쇠는 AI 의 인식 공간을 인간처럼 작게 만드는 것이라고 말합니다.

  • 현재의 AI: 거대한 방을 채우고 있어서, 어디를 가나 AI 의 영역과 부딪힙니다. (적대적 공격에 취약)
  • 목표: AI 가 '고양이'라고 인식하는 영역을 인간처럼 작은 책상 크기로 줄여야 합니다.
    • 영역이 작아지면, '개' 사진이나 '잡음'은 그 책상에서 훨씬 멀어집니다.
    • 그러면 아주 작은 변화만으로는 그 책상 (고양이 영역) 에 도달할 수 없게 되어, AI 는 더 이상 속지 않게 됩니다.

4. 흥미로운 발견: "완벽한 AI 는 아직 없다"

연구진은 가장 튼튼하게 훈련된 AI 모델들까지 분석해 보았습니다.

  • 결과: 아무리 튼튼한 AI 라도, 여전히 인간의 인식 공간보다 훨씬 거대한 영역을 차지하고 있었습니다. 완전히 해결된 것은 아닙니다.
  • 희망의 신호: 하지만, 가장 튼튼한 AI 들 중에서는 '고양이'처럼 차원이 낮은 (인간과 비슷한) 개념을 다룰 때, 비로소 AI 가 만들어내는 이미지가 인간이 볼 수 있는 '고양이'처럼 보이기도 했습니다. 이는 인간과 AI 의 인식 세계를 '크기 (차원)' 측면에서 맞추는 것이 해결의 첫걸음임을 시사합니다.

5. 결론: "정렬 (Alignment) 이란 무엇인가?"

이 논문은 AI 안전 (Alignment) 분야에서 매우 중요한 메시지를 줍니다.

"우리가 AI 를 인간과 같은 가치관을 갖게 하려면, 먼저 AI 가 세상을 바라보는 '렌즈의 크기'를 인간과 똑같이 맞춰야 한다."

AI 가 인간처럼 세상을 좁고 정확하게 인식하지 않는 한, 아무리 많은 데이터를 주고 훈련시켜도 AI 는 인간의 눈에는 보이지 않는 작은 변화에 속아 넘어가는 '적대적 예제'의 늪에서 빠져나오지 못할 것입니다.

요약하자면:
AI 가 '고양이'를 인식하는 공간이 너무 넓어서 (거대한 방), 다른 것들도 쉽게 그 안으로 들어와 버립니다. 이 문제를 해결하려면 AI 가 인식하는 공간을 인간처럼 작고 정교하게 (작은 책상처럼) 줄여야 합니다. 이것이 바로 AI 를 안전하게 만드는 첫걸음입니다.