Laundering AI Authority with Adversarial Examples

원저자: Jie Zhang, Pura Peetathawatchai, Florian Tramèr, Avital Shafran

게시일 2026-05-07

📖 4 분 읽기☕ 가벼운 읽기

원저자: Jie Zhang, Pura Peetathawatchai, Florian Tramèr, Avital Shafran

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

상상해 보세요. 절대 거짓말을 하지 않는 매우 똑똑하고 신뢰도가 높은 사서 한 명이 있다고 가정해 봅시다. 당신은 그 사서가 책에 무엇이 쓰여 있는지, 그림이 무엇을 묘사하는지, 또는 제품이 좋은지 여부를 알려줄 때 완전히 신뢰합니다. 만약 고양이 사진을 건네면, 그 사서는 "그것은 고양이입니다"라고 말할 것이라고 믿습니다.

이 논문은 무서운 속임수를 드러냅니다: 사진은 당신에게 정확히 동일하게 보이지만, 이 사서를 완전히 다른 동물로 착각하게 만들 수 있습니다.

연구자들은 이를 "AI 권세 세탁 (AI Authority Laundering)"이라고 부릅니다. 이것이 어떻게 작동하는지 간단한 개념으로 나누어 설명해 보겠습니다:

핵심 속임수: "마법 필터"

AI 모델을 두 가지 다른 안경을 쓴 것으로 생각해 보세요:

당신의 안경: 당신이 이미지를 볼 때, 정상적인 그림 (예: 타이레놀 병) 을 봅니다.
AI 의 안경: AI 는 그 그림의 숨겨진, 약간 변형된 버전 (예: 위험한 여드름 치료제 병) 을 봅니다.

연구자들은 이미지에 보이지 않는 "노이즈"를 추가하는 방법을 발견했습니다. 마치 아주 작고 보이지 않는 정전기 같은 노이즈로, AI 가 보는 것을 바꾸지만 인간의 눈에는 이미지가 완벽하게 정상적으로 보이게 합니다.

왜 이것이 위험한가요? ("세탁" 부분)

보통 우리가 AI 에 대해 걱정할 때, 사람들이 AI 를 "탈옥 (jailbreak)"시키려 하거나 규칙을 깨게 하거나 나쁜 말을 하도록 강요하는 것을 생각합니다. 하지만 이 논문은 다른 것을 보여줍니다.

AI 가 규칙을 깨도록 강요당하는 것이 아닙니다. 오히려 AI 는 잘못된 대상에 대해 규칙을 완벽하게 따르도록 속임수를 당하는 것입니다.

상황: 당신은 AI 에게 "이 약은 임산부에게 안전한가요?"라고 묻습니다.
속임수: 당신은 타이레놀 (안전한 약) 사진을 보여주지만, AI 의 "안경"은 로아큐탄 (위험한 약) 으로 보이게 합니다.
결과: AI 는 위험한 약을 보고 있다고 생각하기 때문에 정직하고 정중하게 "아니요, 이것은 위험합니다!"라고 말합니다.
세탁: AI 의 "정직하고 안전한" 평판이 거짓말을 세탁하는 데 사용됩니다. 사용자는 AI 의 권위를 신뢰하므로, AI 가 가짜 현실에 대해 단순히 제 역할을 하고 있음에도 불구하고 잘못된 경고를 믿게 됩니다.

연구자들은 실제로 무엇을 했나요?

그들은 오늘날 이용 가능한 가장 첨단 AI 시스템 (GPT-5.4, Claude, Gemini, Grok 등) 에서 이를 테스트했습니다. 그들은 새로운 초복잡 해킹 도구를 발명할 필요가 없었습니다. 10 년 이상 알려져 온 기본 기술을 사용했습니다.

다음은 그들이 신뢰를 무너뜨린 네 가지 주요 방법입니다:

가짜 뉴스 유포 (음모론자):
- 그들은 달 착륙이나 9/11 테러의 유명한 사진을 가져왔습니다.
- 보이지 않는 "노이즈"를 추가했습니다.
- AI 는 그것을 보고 자신 있게 "이것은 가짜 뉴스입니다" 또는 "이 사건은 결코 발생하지 않았습니다"라고 선언하여 음모 이론을 사실상 검증해 주었습니다.
사람들의 이름을 더럽힘 (신원 도용자):
- 그들은 유명인 (예: 일론 머스크) 의 사진을 가져왔습니다.
- AI 가 다른 사람 (예: 범죄자나 비만인) 으로 보게 만들었습니다.
- 그 사람을 식별해 달라고 요청했을 때, AI 는 자신 있게 "그 사람은 [틀린 사람] 입니다"라고 말하며 실제 사람의 평판을 훼손했습니다.
안전 필터 우회 ("감옥 탈출 카드"):
- 플랫폼들은 보통 AI 가 부적절한 콘텐츠 (예: 노출이나 폭력) 를 생성하거나 논의하는 것을 차단합니다.
- 연구자들은 "금지된" 이미지를 가져와 AI 가 해로운 장난감 (예: 테디 베어) 으로 보게 만들었습니다.
- AI 는 테디 베어를 보고 있다고 생각하며, 이미지 처리에 동의하거나 만화 버전을 생성하는 것에 기꺼이 동의함으로써 안전 장치를 효과적으로 우회했습니다.
쇼핑객 사기 (가짜 리뷰):
- 그들은 AI 에게 값싸고 품질이 낮은 시계 사진을 보여주었습니다.
- AI 가 비싼 로렉스 사진을 보게 만들었습니다.
- 조언을 요청했을 때, AI 는 그것이 고급 브랜드라고 생각하여 값싼 시계 구매를 추천했습니다.

주요 교훈

무서운 점은 AI 가 "고장 났다"거나 "악의적"이라는 것이 아닙니다. 무서운 점은 AI 가 설계된 대로 정확히 작동하고 있다는 것입니다. AI 는 정직하고, 도움이 되며, 안전하지만, 공격자가 비밀리에 변경한 현실을 보고 있을 뿐입니다.

AI 가 매우 신뢰받기 때문에, 그 "정직한" 실수는 강력한 무기가 됩니다. 이 논문은 AI 가 이미지를 인식하는 방식에서 이 "맹점"을 해결할 수 있는 한, 이미지를 검증하거나 세계의 사실 확인을 주장하는 어떤 AI 에 대해서도 매우 회의적이어야 한다고 결론 내립니다.

간단히 말해: AI 는 법정에서 매우 정직한 증인과 같습니다. 연구자들은 증인을 매수한 것이 아니라, 증인의 눈앞에 있는 증거 사진을 바꿔치기 한 것입니다. 증인은 여전히 진실을 말하지만, 그 진실은 이제 잘못된 사진에 대한 것이 됩니다.

Each language version is independently generated for its own context, not a direct translation.

기술적 요약: 적대적 예제를 통한 AI 권위 세탁

문제 정의
본 논문은 온라인 생태계 (예: 소셜 미디어 사실 확인, 제품 추천, 콘텐츠 규제) 에서 "신뢰할 수 있는 권위자"로 배포되는 비전 - 언어 모델 (VLM) 의 치명적인 취약점을 다룹니다. 사용자는 이러한 시스템이 시각적 콘텐츠를 자신과 동일하게 지각한다고 암묵적으로 신뢰하지만, 저자들은 적대적 예제가 이러한 가정을 무너뜨릴 수 있음을 보여줍니다. 저자들은 AI 권위 세탁이라는 위협 모델을 제시합니다. 이는 공격자가 이미지를 미묘하게 변형시켜, 인간 관찰자가 보는 이미지 대신 공격자가 선택한 의미론적 현실에 대해 VLM 이 자신감 있고 권위 있는 응답을 생성하도록 만드는 공격입니다.

"탈옥 (jailbreak)"이나 "프롬프트 인젝션"이 모델의 정렬 (alignment) 이나 지시를 우회하는 것과 달리, 권위 세탁은 완전히 지각 수준에서 작동합니다. 모델은 여전히 "정렬된" 상태입니다. 즉, 모델이 잘못 지각한 것에 대해 유익하고, 해롭지 않으며, 정직하게 응답합니다. 따라서 표준적인 정렬 기반 방어 (안전성 파인튜닝, 거부 훈련) 는 이 위협에 무효합니다. 핵심 문제는 생산 환경의 VLM 에 시각적 적대적 견고성이 부재하다는 점입니다.

방법론
저자는 공격자가 모델이 보는 이미지 (타겟) 와 인간 관찰자가 보는 이미지 (소스) 를 모두 통제하는 이상적인 "지각 오라클"을 근사화하는 2 단계 공격 파이프라인을 제안합니다.

1 단계: 오라클 공격 설계: 공격자는 관찰자에게는 무해하게 보이는 소스 이미지 ( $img_{src}$ ) 와 정렬된 VLM 이 처리될 때 원하는 적대적 출력 (예: 허위 사실, 거부된 정책 위반) 을 산출하는 타겟 이미지 또는 개념 ($target$) 을 선택합니다. 이 단계는 다음 4 가지 범주에 걸쳐 공격 목표를 정의합니다.
- 내러티브 조작: 음모론과 같은 사건에 대한 허위 주장을 유도.
- 신원 조작: 공인을 오인식시켜 허위 정보를 확산하거나 평판을 훼손.
- 상업적 사기: 제품 추천을 조작.
- 안전 필터 회피: 콘텐츠 규제 (NSFW, 공인 보호) 를 우회.
2 단계: 적대적 구체화: 저자는 표준 적대적 기법을 사용하여 오라클을 구체화합니다. $L_\infty$ 노름 하에서 소스 이미지와 가깝게 유지된다는 제약 조건 하에, 단일 이미지 ( $img_{adv}$ ) 를 최적화하여 비전 인코더 임베딩과 타겟 임베딩 간의 거리를 최소화합니다 ( $\|x - img_{src}\|_\infty \le \epsilon$ ).
- 전이성: 공격은 오픈소스 대리 모델인 공개된 CLIP 모델 군집에 대한 **일반적인 프로젝션된 경사 하강법 (PGD)**을 사용합니다.
- 블랙박스 타겟: 이러한 변형은 아키텍처와 가중치를 알 수 없는 생산 환경 VLM 들로 전이됩니다. 여기에는 GPT 5.4, Claude Opus 4.6, Gemini 3, Grok 4.2가 포함됩니다.
- 새로운 알고리즘 부재: 공격자의 능력에 대한 하한을 확립하기 위해 저자는 고의로 새로운 공격 알고리즘을 사용하지 않았습니다. 이는 10 년 이상 알려진 기법으로도 충분함을 보여줍니다.

주요 기여

위협 모델 정의: 지각적 불일치에 초점을 맞춤으로써 정렬 파괴 공격과 구별되는 "AI 권위 세탁"을 공식적으로 정의합니다. 공격을 인식 조작 (허위 정보) 과 준수 세탁 (필터 우회) 으로 분류합니다.
체계적 평가: 6 개의 생산 환경 VLM 과 7 가지 사례 연구를 통해 광범위한 평가를 수행하여, 광범위한 결과를 가진 실용적인 공격 벡터를 입증했습니다.
낮은 공격 진입 장벽 입증: 오픈소스 대리 모델에 대한 기본적이고 상용화된 적대적 기법만으로도 최첨단 VLM 을 일관되게 조작할 수 있음을 보여주어, 시각적 견고성이 해결되지 않은 실용적인 안전 문제임을 증명했습니다.

결과
저자는 4 가지 공격 표면에서 높은 성공률을 보고했습니다.

내러티브 조작: 아폴로 11 호, 9/11 사건과 같은 역사적 사건의 이미지를 "가짜 뉴스" 텍스트 임베딩과 일치하도록 변형한 결과, ChatGPT 5.4 와 Grok 4.2 와 같은 모델들이 음모론을 자신 있게 검증했습니다. 모델 간 성공률은 **22% 에서 100%**까지 다양했습니다.
신원 조작: 교차 신원 공격 (10 명의 공인, 90 개의 적대적 쌍) 에서 모델들은 **84% 에서 96%**의 경우 소스 신원을 식별하지 못했습니다. 표적 성공률 (공격자가 선택한 타겟을 식별) 은 Grok 4.2 의 경우 **54.4%**에 달했습니다. 이러한 조작은 역이미지 검색 및 이미지 생성과 같은 하류 작업으로 성공적으로 전파되었습니다.
안전 필터 회피:
- NSFW 회피: Explicit 한 이미지를 인형/곰과 같은 장난감의 임베딩과 일치하도록 변형하여 상업적 NSFW 탐지기를 우회하고 이미지 생성 VLM (예: GPT 5.4 Image 2) 에 **70–100%**의 수용률로 승인받게 했습니다.
- 비대칭 정책 회피: 여성 이미지를 남성 임베딩과 일치하도록 변형하여 성별 특정 콘텐츠 필터 (예: 의류 제거 요청) 를 **81%**의 성공률로 우회했습니다.
- 공인 보호: 공인 이미지를 AI 생성 얼굴과 일치하도록 변형하여 **86%**의 경우 거부 메커니즘을 우회했습니다.
상업적 사기: 저품질 제품 이미지를 고급 브랜드 (예: 싼 시계를 로렉스와 일치) 와 일치하도록 변형하여 VLM 이 구매 추천을 뒤집고 공격자의 제품을 선호하도록 만들었습니다.

의의 및 주장
본 논문은 적대적 예제가 단순히 "이론적 호기심"에 불과했던 시대가 끝났다고 주장합니다. VLM 을 신뢰할 수 있는 권위자로 배포함으로써, 업계는 우연히 이러한 모델을 허위 정보를 증폭하고 안전 프로토콜을 우회하는 무기로 전락시켰습니다.

실용적 안전 우려: 저자들은 시각적 적대적 견고성이 이제 중요하고 실용적인 안전 문제라고 주장합니다. 알려진 단순한 공격이 최첨단 모델에서 작동한다는 사실은 위협이 현재 이해된 것보다 훨씬 더 심각할 수 있음을 시사합니다.
현재 방어의 한계: 모델이 규칙을 깨도록 "속임"을 당하는 것이 아니라, 잘못된 입력에 대해 규칙을 정직하게 따르도록 속임수를 당하고 있기 때문에 정렬 기반 방어는 무의미해집니다.
행동 촉구: 본 논문은 시각적 견고성이 해결되기 전까지 VLM 출력을 권위 있는 것으로 제시해서는 안 된다고 결론지으며, 다음을 요구합니다.
- 기술적 개입: 사용자가 불일치를 감지할 수 있도록 추론을 명시적으로 언어화.
- 정책 대응: AI 가 승인한 콘텐츠의 영향력 제한, 잠재적으로 조작된 출력 태깅, AI 시스템에 부여된 권위 재검토.
- 연구 전환: 독립된 모델 연구에서 지각과 권위가 교차하는 실제 생태계 내의 공격을 이해하는 방향으로의 전환.

저자들은 변형의 가시성을 최소화하기 위해 노력하지 않았다고 강조했습니다 (표준 $L_\infty$ 제약 이상). 이는 더 은밀하고 탐지하기 어려운 공격도 실현 가능할 것임을 시사합니다.

핵심 속임수: "마법 필터"

왜 이것이 위험한가요? ("세탁" 부분)

연구자들은 실제로 무엇을 했나요?

주요 교훈

기술적 요약: 적대적 예제를 통한 AI 권위 세탁

유사한 논문