상상해 보세요. AI 에게 고양이 사진을 보여주고 "이건 고양이야"라고 가르쳤습니다. 그런데 고양이가 살짝 회전하거나 뒤집히면 AI 는 "아니야, 이건 개야!"라고 잘못 판단할 수도 있습니다.
이 문제를 해결하기 위해 과학자들은 **대칭성 (Symmetry)**을 가진 AI 를 만들었습니다.
비유: 마치 **회전하는 놀이기구 (회전목마)**처럼, 물체가 어느 방향으로 돌아도 똑같은 것을 인식하도록 설계된 AI 입니다.
기대: "회전해도 똑같이 인식하게 만들었으니, 공격자가 이미지를 살짝 비틀어도 AI 는 흔들리지 않겠지?"라고 생각했습니다.
하지만 연구진 (Krumtünger, Sevior, Usman) 은 의문을 품었습니다.
"회전하는 놀이기구처럼 설계했다고 해서, 정말로 모든 공격에 강할까? 아니면 여전히 약한 구석이 있을까?"
🔍 2. 핵심 발견: "원형 평균"이라는 약점
연구진은 양자 AI 가 실제로 어떤 정보를 보고 판단하는지 자세히 들여다봤습니다. 그 결과 놀라운 사실을 발견했습니다.
발견: 회전 대칭성을 가진 AI 는 이미지 전체의 디테일보다는 **"원형으로 평균낸 밝기 (Ring-averaged intensities)"**에 너무 의존하고 있었습니다.
비유:
일반적인 AI 는 고양이의 '귀 모양', '수염' 같은 디테일을 봅니다.
이 연구의 양자 AI 는 고양이의 전체적인 '둥근 모양의 밝기'만 보고 판단합니다. 마치 "이 사진은 전체적으로 밝은가? 어두운가?"만 보고 "고양이"라고 외치는 것과 비슷합니다.
문제는 이 '밝기' 정보가 매우 **취약 (Brittle)**하다는 것입니다. 공격자가 아주 작은 노이즈를 추가해서 밝기만 살짝 바꿔도, AI 는 완전히 엉뚱한 것을 볼 수 있습니다.
결론: "회전해도 똑같이 인식하게 만든 것 (대칭성) 만으로는, AI 를 해킹으로부터 보호해 주지 못한다."
🛠️ 3. 해결책: "약한 다리"를 잘라내다
연구진은 이 약점을 이용해 AI 를 더 튼튼하게 만드는 두 가지 방법을 제안했습니다.
방법 A: 공격적인 훈련 (Adversarial Training)
비유: AI 에게 "이제부터 내가 너를 속여보겠다"라고 말하며, 의도적으로 밝기를 바꿔주는 가짜 사진들을 많이 보여주고 다시 가르치는 것입니다.
효과: AI 가 속임수를 알아차리게 되지만, 정직한 사진 (원본) 을 볼 때의 정확도가 조금 떨어질 수 있습니다.
방법 B: 약한 다리 제거 (Feature Suppression) - 이게 핵심!
비유: AI 가 너무 의존하는 '원형 평균 밝기'라는 다리 하나를 아예 잘라내는 것입니다.
작동 원리: AI 가 회전할 때 정보를 처리하는 방식 (푸리에 변환) 에서, '밝기'만 담당하는 특정 부분 (m=0 모드) 을 측정 단계에서 차단합니다.
결과: AI 는 이제 '밝기'에 의존할 수 없게 되므로, 공격자가 밝기를 조작해도 영향을 받지 않습니다.
장점: 정직한 사진에 대한 정확도는 그대로 유지하면서, 해킹에 대한 방어력은 상당히 향상되었습니다.
📝 4. 요약: 우리가 배운 교훈
대칭성만으로는 부족합니다: AI 를 회전하거나 뒤집어도 똑같이 인식하게 만드는 것만으로는 해킹을 막을 수 없습니다. 오히려 AI 가 **취약한 정보 (밝기 등)**에 너무 의존하게 만들 수 있습니다.
어떤 정보를 보는지가 중요합니다: AI 가 어떤 특징 (Feature) 을 보고 판단하는지 분석하면, 그중에서 '약한 특징'을 찾아낼 수 있습니다.
약점을 제거하면 강해집니다: AI 가 의존하는 '약한 특징'을 인위적으로 차단하면, AI 는 더 똑똑하고 튼튼해집니다.
🌟 한 줄 요약
"AI 를 회전목마처럼 만들었다고 해서 안전한 건 아닙니다. 오히려 AI 가 '밝기'라는 약한 다리에 너무 의존하고 있었으니, 그 다리를 잘라내니 AI 가 훨씬 더 튼튼해졌습니다!"
이 연구는 미래의 양자 AI 를 설계할 때, 단순히 대칭성을 적용하는 것을 넘어 어떤 정보를 보고 판단하는지 분석하고, 약한 부분을 제거하는 전략이 필요함을 보여줍니다.
1. 연구 배경 및 문제 정의 (Problem)
배경: 기하학적 구조를 가진 QML 작업 (예: 회전, 병진, 치환 불변성) 에서는 대칭성을 활용한 군 공변 (group-equivariant) 아키텍처가 학습 가능성 (trainability) 을 보장하고 유도 편향 (inductive bias) 을 개선하는 것으로 알려져 있습니다.
문제: 대칭성 제약이 모델의 **적대적 강건성 (adversarial robustness)**에 어떤 영향을 미치는지는 명확하지 않았습니다. 특히, 기존 연구들은 회로 수준 분석에 집중했으나, 모델이 실제로 어떤 입력 특징 (features) 에 의존하여 예측을 수행하는지, 그리고 그 특징들이 적대적 공격에 얼마나 취약한지에 대한 메커니즘적 이해가 부족했습니다.
핵심 질문: 회전 공변성 (rotational equivariance) 을 가진 양자 모델이 접근 가능한 정보의 범위가 어떻게 정의되며, 이 제한된 공간 내에서도 모델이 취약한 특징에 의존하여 전이 공격 (transfer attack) 에 취약할 수 있는가?
2. 방법론 (Methodology)
A. 이론적 프레임워크: 트위링 (Twirling) 기반 특징 분석
모델: Ref. [5] 에서 제안된 회전 공변 양자 모델을 기반으로 합니다. 입력 이미지는 반경 (radial) 과 궤도 (orbital) 레지스터로 인코딩되며, 궤도 레지스터에 이산 푸리에 변환 (QFT) 을 적용하여 대칭성을 다룹니다.
수학적 분석:
군 공변성 (equivariance) 과 불변 읽기 (invariant readout) 조건 하에서, 모델의 예측은 입력 상태 ρ가 아닌 군 트위링 (group-twirled) 상태TG(ρ)에만 의존함을 증명했습니다.
이는 모델이 절대적인 각도 정보에 의존할 수 없으며, 오직 **회전 불변 통계량 (rotation-invariant statistics)**에만 접근할 수 있음을 의미합니다.
구체적으로, 접근 가능한 정보는 원형 상관관계 (circular correlations)Cr,r′(Δϕ)로 표현되며, 이는 반경 r,r′ 사이의 상대적 각도 차이 Δϕ에 의존합니다.
특히, m=0 푸리에 모드 (푸리에 계수 중 0 번째 성분) 는 **링 평균 강도 (ring-averaged intensities)**에 해당하며, 이는 회전 불변 통계량의 일부입니다.
B. 특징 의존성 탐지 실험
모델이 실제로 어떤 특징을 사용하는지 파악하기 위해 세 가지 입력 변환 (Input Transformations) 을 도입했습니다:
T1 (직교 순환 교란): 회전 불변 상관관계를 보존하면서 시각적으로 입력을 교란합니다. (모델이 T1 에 대해 불변이어야 함을 검증)
T2 (링 단위 순열): 링 평균은 보존하지만 각도 순서를 무작위로 섞어 고차원 상관관계를 파괴합니다.
T3 (링 평균 제거): 링 평균 강도를 제거하고 상관관계 구조만 남깁니다.
C. 적대적 공격 설정
전이 공격 (Transfer Attack): 양자 모델을 직접 공격하지 않고, **고전적 대리 모델 (Surrogate Models: 선형 분류기, MLP, CNN, ResNet18)**을 훈련시켜 생성한 적대적 예제 (FGSM, PGD) 를 양자 모델에 적용합니다.
데이터셋: STM, MNIST, RotMNIST, RotFMNIST, CIFAR 등 5 가지 데이터셋을 사용했습니다.
3. 주요 결과 (Key Results)
A. 특징 수준의 취약성 발견
대칭성만으로는 강건성이 보장되지 않음: 회전 공변성 자체는 모델이 비불변 (non-invariant) 영역의 공격에 무감각하게 만들지만, 제한된 불변 특징 공간 내에서도 모델은 여전히 취약한 특징 (brittle features) 에 의존할 수 있습니다.
링 평균 강도의 역할:
STM, RotFMNIST, CIFAR 데이터셋의 경우, 모델이 **링 평균 강도 (ring-averaged intensities, m=0 모드)**에 크게 의존하여 분류를 수행하는 것으로 나타났습니다.
이러한 데이터셋에서 T3(링 평균 제거) 를 적용하면 정확도가 급격히 떨어집니다.
반면, MNIST 와 RotMNIST 는 T2(순열) 보다 T3(평균 제거) 에 더 민감하여, 고차원 상관관계가 더 중요한 역할을 함을 보여줍니다.
B. 전이 공격에 대한 취약성
취약한 특징의 전이: 고전적 대리 모델 (특히 선형 분류기) 이도 데이터셋에 따라 링 평균 강도에 의존하는 경향이 있습니다. 따라서 양자 모델과 고전적 모델이 **유사한 취약한 특징 (링 평균)**을 공유할 때, 고전적 모델에서 생성된 적대적 공격이 양자 모델에 효과적으로 전이됩니다.
결과: 링 평균에 크게 의존하는 데이터셋 (STM 등) 에서 양자 모델은 전이 공격에 매우 취약했습니다. 이는 대칭성이 있다고 해서 자동으로 적대적 강건성이 생기는 것이 아님을 증명합니다.
C. 강건성 개선 전략
두 가지 전략을 통해 강건성을 크게 향상시켰습니다:
적대적 훈련 (Adversarial Training): 선형 대리 모델을 사용하여 적대적 예제로 훈련시켰습니다. 이는 강건성을 높였으나, 깨끗한 데이터 (clean data) 에 대한 정확도와의 트레이드오프가 발생했습니다.
특징 억제 (Feature Suppression - m=0 모드 제거):
방법: 측정 단계에서 링 평균 강도에 해당하는 **m=0 푸리에 모드를 프로젝트 (제거)**하도록 아키텍처를 수정했습니다.
효과: 이 방법은 적대적 훈련보다 더 일관된 강건성 향상을 보였으며, 깨끗한 데이터에 대한 정확도 손실은 적었습니다.
의미: 취약한 특징 채널을 물리적으로 차단함으로써, 공격자가 이용할 수 있는 특징을 원천적으로 제거하는 효과가 있었습니다.
4. 주요 기여 (Key Contributions)
메커니즘적 이해: 군 공변 양자 모델이 접근 가능한 정보 (회전 불변 통계량) 를 특징 수준에서 명시적으로 규명하고, 이를 픽셀 공간의 상관관계로 해석했습니다.
대칭성과 강건성의 관계 규명: 대칭성 제약이 적대적 강건성을 자동으로 보장하지 않으며, 오히려 모델이 특정 불변 특징 (링 평균) 에 과도하게 의존할 경우 취약해질 수 있음을 보였습니다.
새로운 방어 메커니즘 제안: 데이터 증강이나 복잡한 훈련 방식이 아닌, 대칭성 채널 (symmetry sector) 을 기반으로 취약한 특징을 선택적으로 억제하는 아키텍처적 개입을 통해 강건성을 개선하는 방법을 제시했습니다.
5. 의의 및 결론 (Significance)
이론적 의의: 양자 머신러닝의 적대적 강건성을 분석할 때, 단순히 "양자이므로 안전하다"는 접근을 넘어, 어떤 특징을 사용하는지를 분석하는 것이 필수적임을 강조했습니다.
실용적 의의: 향후 대칭성을 활용한 QML 모델 설계 시, 특정 대칭성 채널 (예: m=0) 이 취약한 특징을 포함할 수 있음을 인지하고, 이를 제거하거나 분리하는 전략을 통해 강건성을 확보할 수 있음을 보여줍니다.
확장성: 본 연구에서 개발된 트위링 (twirling) 기반 분석 프레임워크는 다른 엄격한 공변 (strictly equivariant) 양자 모델에도 적용 가능하여, 향후 다양한 QML 아키텍처의 해석 가능성과 강건성 분석에 기여할 것으로 기대됩니다.
요약하자면, 이 논문은 회전 공변 양자 모델이 대칭성 덕분에 안전하다고 오해할 수 있으나, 실제로는 '링 평균'과 같은 단순한 불변 특징에 의존하여 고전적 공격에 취약할 수 있음을 발견했고, 이를 특정 대칭 채널을 차단하는 아키텍처적 수정으로 해결할 수 있음을 증명했습니다.