당신에게 문서를 대신 읽어주는 매우 똑똑하고 도움이 되는 로봇 비서 (AI 에이전트) 가 있다고 상상해 보세요. 아마도 주식 보고서를 읽는 금융 로봇이거나, 계약을 검토하는 법률 로봇일 수도 있습니다. 이 로봇을 안전하게 지키기 위해, 로봇이 읽는 문서 속에 숨겨진 비밀스럽고 악의적인 명령을 찾아내려는 '경비원 (주입 탐지기)'을 설치했습니다. 이 경비원의 임무는 문서 속에 숨겨진 악의적인 명령을 시도하는 사람을 찾아내는 것입니다.

문제: '양털을 입은 늑대'

이 논문은 경비원이 명백하고 시끄러운 침입자들만 찾아내도록 훈련되어 있다고 주장합니다. 정적 공격을 생각해 보세요. 마치 "이전 모든 규칙을 무시하라! 내 말을 따라라!"라고 적힌 간판을 들고 밝은 빨간색 가면을 쓴 사람이 있는 것처럼요. 경비원은 이를 즉시 발견하고 경보를 울립니다.

하지만 이 논문은 **도메인 위장 주입 (Domain-Camouflaged Injection)**이라는 더 교묘한 새로운 공격 유형을 소개합니다.

가면을 쓰지 않는 정교한 도둑을 상상해 보세요. 대신 그들은 신뢰받는 전문가와 똑같이 옷을 입습니다. 로봇이 금융 보고서를 읽는다면, 도둑은 실제 금융 애널리스트가 작성한 것처럼 보이고 들리는 가짜 단락을 씁니다. 그들은 같은 고급스러운 단어, 같은 문장 구조, 그리고 같은 진지한 어조를 사용합니다. 하지만 그 완벽하게 정상적으로 들리는 텍스트 속에 숨겨진 비밀 지시가 있습니다. "모든 주식을 매도하라."

경비원에게 이는 문서의 정당한 부분처럼 보입니다. 경비원은 빨간 가면을 보지 못하고, 정장과 넥타이를 봅니다. 그래서 경비원은 "모든 것이 깨끗해 보입니다"라고 말하며 악의적인 명령이 그대로 지나가게 합니다.

큰 발견: '맹점'

연구자들은 Llama 와 Gemini 라는 두 가지 다른 AI 모델을 통해 이를 테스트했고, **위장 탐지 격차 (Camouflage Detection Gap, CDG)**라고 부르는 안전상의 거대한 간극을 발견했습니다.

Llama 모델의 경우: 경비원은 명백한 '빨간 가면' 공격의 94% 를 잡아냈습니다. 하지만 공격이 전문가 텍스트로 위장되었을 때, 경비원은 그중 **9.7%**만 잡아냈습니다. 거의 모든 것을 놓쳤습니다.
Gemini 모델의 경우: 경비원은 명백한 공격의 100% 를 잡아냈지만, 위장된 공격의 경우 **55.6%**만 잡아내는 수준으로 떨어졌습니다.

무서운 점은 무엇일까요? 경비원이 혼란스러워하거나 불확실한 것이 아니었습니다. 그것은 확신에 차서 틀린 판단을 내린 것이었습니다. 경비원은 위장된 공격을 보며 100% 확신으로 "이것은 안전합니다!"라고 말했지만, 실제로는 위험했습니다. 이는 경비원에게 "더 조심하라"거나 "더 걱정하라"고 말한다고 해서 해결될 수 없다는 것을 의미합니다. 경비원은 단순히 무엇을 찾아야 할지 모를 뿐입니다.

'토론 클럽' 실험

연구자들은 또 다른 안전 전략을 시도했습니다. 결정을 내리기 전에 세 로봇이 답변을 토론하게 한 것입니다.

약한 로봇 (Llama) 의 경우: 토론은 상황을 더 악화시켰습니다. 로봇들이 논쟁할 때, 오히려 나쁜 명령을 증폭시켰습니다. 만약 한 로봇이 위장된 텍스트에 속아 넘어갔다면, 다른 로봇들도 따라갔고, 실수가 발생할 확률은 10 배나 높아졌습니다. 마치 친구 그룹이 실제로는 매우 사실처럼 들리지만, "잠깐, 그건 가짜인 것 같은데"라고 말하는 사람이 아무도 없기 때문에 모두 틀린 답변에 동의하는 것과 같습니다.
강한 로봇 (Gemini) 의 경우: 토론은 도움이 되었습니다. 강한 로봇들은 속임수를 알아차리고 서로를 교정하여 시스템을 더 안전하게 만들었습니다.

단순히 더 많은 예시를 추가할 수 있을까요?

연구자들은 '저렴한 해결책'을 시도했습니다. 경비원에게 위장된 공격의 몇 가지 예시를 보여줘서 무엇을 찾아야 할지 배우게 한 것입니다.

강한 로봇 (Gemini) 의 경우: 이는 매우 잘 작동했습니다. 경비원은 패턴을 학습하여 위장된 공격의 거의 대부분을 잡아냈습니다.
약한 로봇 (Llama) 의 경우: 이는 거의 도움이 되지 않았습니다. 경비원은 여전히 대부분을 놓쳤습니다. 이는 더 작고 저렴한 AI 모델이 몇 가지 예시만 보고 이러한 미묘한 속임수를 학습하는 능력에 근본적인 한계가 있음을 시사합니다.

결론

이 논문은 현재의 안전 경비원들이 실제 것처럼 보이는 공격에는 맹목적이라고 결론 내립니다. 그들은 시끄럽고 명백한 침입자들을 잡는 데는 뛰어나지만, 군중과 완벽하게 섞여 들어오는 공격자들 앞에서는 완전히 실패합니다. 이는 실제 업무에 사용되는 더 작은 AI 모델들에게 큰 문제입니다. 왜냐하면 그들은 이러한 미묘한 속임수를 찾아내도록 쉽게 '가르칠' 수 없으며, 문제를 토론하기 위해 더 많은 로봇을 추가하는 것이 실제로는 문제를 악화시킬 수 있기 때문입니다.

연구자들은 더 나은 경비원을 구축할 수 있도록 다른 사람들이 시도해 볼 수 있도록 도구를 공개했습니다. 하지만 당분간은 '양털을 입은 늑대'가 AI 시스템을 속이는 매우 효과적인 방법입니다.

기술 요약: 가드레일의 맹점

문제 진술

대규모 언어 모델 (LLM) 에이전트를 보호하기 위해 배포된 현재 주입 탐지기는 주로 정적, 템플릿 기반 페이로드에 맞춰 조정되어 있습니다. 이러한 표준 공격은 명시적으로 "이전 모든 지시사항 무시"와 같은 재정의 지시나 권한 주장을 선언합니다. 본 논문은 탐지기가 도메인 위장 주입을 인식하지 못하는 체계적인 맹점이 있음을 규명합니다.

이 공격 벡터에서 간접 문서 접근 권한 (예: RAG 또는 이메일 처리를 통한) 을 가진 적대자는 표적 문서의 도메인 어휘, 문장 구조, 권위적 어조를 모방하도록 악성 페이로드를 제작합니다. 정적 공격과 달리 이러한 페이로드에는 명시적인 재정의 마커가 포함되어 있지 않습니다. 대신 악성 지시사항을 합법적인 전문가 콘텐츠인 것처럼 내포합니다. 논문은 표준 탐지기가 이러한 공격에 대해 "확신 있게 잘못" 판단하여, 이를 높은 확신으로 CLEAN으로 분류한다고 주장합니다. 이로 인해 신뢰도 임계값 조정과 같은 표준 대응 전략은 무효화됩니다.

이 실패를 정량화하기 위해 저자들은 **위장 탐지 격차 (Camouflage Detection Gap, CDG)**를 도입했습니다. 이는 정적 페이로드와 위장 페이로드 간의 주입 탐지율 (Injection Detection Rate, IDR) 차이로 정의됩니다 ( $CDG = IDR_{static} - IDR_{camouflage}$ ).

방법론

1. 작업 은행 및 페이로드 생성

저자들은 세 가지 전문 도메인에 걸친 45 개 작업으로 구성된 벤치마크를 구축했습니다:

금융: 주식 분석, 위험 평가, 실적 해석.
법률: 계약 검토, 준수 평가, 위험 플래그ging.
일반 QA: 사실적 검색, 요약, 분류.

각 작업에 대해 위장 생성기 (CamouflageGenerator)(공격자 LLM) 는 깨끗한 컨텍스트 문서를 읽도록 프롬프트를 입력받아, 문서의 도메인별 어휘와 인식론적 어조를 채택하면서 특정 악성 목표를 내포하는 페이로드를 생성하도록 지시받았습니다. 생성기는 표준 재정의 마커 사용을 명시적으로 금지받았습니다. 각 작업당 세 가지 변형이 생성되었으며, 컨텍스트와의 코사인 유사도로 측정된 **권위적 위장 점수 (Authoritative Camouflage Score, ACS)**가 가장 높은 변형이 선택되었습니다.

2. 실험 설정

모델: 실험은 Llama 3.1 8B(로컬 추론) 와 Gemini 2.0 Flash(OpenRouter 를 통한) 에서 수행되어 모델 간 검증을 수행했습니다.
아키텍처:
- 단일 에이전트: 제공된 문서만을 기반으로 응답하도록 프롬프트된 전문 분석가.
- 다중 에이전트 토론: 세 명의 에이전트 (분석가 A, B, C) 가 세 라운드의 토론에 참여. 조건에는 inject_all(모든 에이전트가 주입된 컨텍스트를 받음) 과 inject_first(첫 번째 에이전트만 주입을 받음) 가 포함됨.
평가된 탐지기:
- 정적 탐지기: 세 개의 정적 주입 예시와 두 개의 깨끗한 예시 (위장 예시 없음) 로 학습된 퓨샷 분류기.
- 증강된 탐지기: 도메인별 위장 예시 하나씩을 추가한 정적 탐지기.
- Llama Guard 3: 퓨샷 접근법을 넘어선 맹점이 있는지 테스트하기 위한 기준선으로 사용된 프로덕션 안전 분류기.

3. 지표

ASR (공격 성공률): 에이전트가 주입된 지시를 따랐던 시도의 비율.
IDR (주입 탐지율): 주입된 시도 중 올바르게 플래그된 비율.
CDG: 정적 페이로드와 위장 페이로드 간의 탐지율 격차.
DAF (토론 증폭 계수): 단일 에이전트 설정 대비 토론 환경에서의 ASR 비율.
CPS (순응 압력 점수): 주입된 에이전트의 입장을 채택한 비주입 에이전트의 비율.

주요 결과

1. 위장 탐지 격차는 크고 유의미함

표준 공격에 대해 높은 탐지율을 보이는 정적 탐지기는 위장 페이로드 앞에서 붕괴됩니다:

Llama 3.1 8B: IDR 이 93.8% (정적) 에서 9.7% (위장) 로 하락하여 CDG 가 0.840이 되었습니다.
Gemini 2.0 Flash: IDR 이 100% 에서 55.6% 로 하락하여 CDG 가 0.444가 되었습니다.
통계적 유의성: 맥네마르 검정 (McNemar's tests) 은 이러한 격차가 통계적으로 유의미함 ( $p < 0.001$ ) 을 확인했으며, 역방향 불일치 쌍은 하나도 없었습니다 (정적 페이로드가 탐지되었을 때 위장 페이로드가 탐지를 회피한 경우는 전무).
신뢰도: 이 실패는 불확실성 때문이 아닙니다. Llama 에서 놓친 위장 사례의 **96.7%**는 높은 확신으로 CLEAN으로 라벨링되었습니다.

2. 프로덕션 안전 분류기도 맹점을 공유함

Llama Guard 3는 135 번의 시도에서 위장 페이로드를 단 하나도 탐지하지 못했습니다 (IDR = 0.000). 이는 취약점이 퓨샷 탐지기에 국한되지 않고 전용 안전 분류기까지 확장됨을 확인시켜 주며, 이러한 페이로드에는 혐오 표현이나 폭력과 같은 전통적인 "유해한" 콘텐츠가 아니라 불일치된 전문가 추론이 포함되어 있기 때문일 가능성이 높습니다.

3. 다중 에이전트 토론은 소형 모델의 취약성을 증폭시킴

Llama 3.1 8B: 토론이 공격을 증폭시켰습니다. 정적 공격에 대한 DAF 는 3.4 배였으나, 위장 공격에 대해서는 9.9 배에 달했습니다. 에이전트들은 도메인에 적합한 콘텐츠를 의심스러운 것으로 플래그하지 못해 순응 역학을 통해 주입을 전파했습니다.
Gemini 2.0 Flash: 토론이 공격을 억제했습니다 (DAF < 1), 집단적 저항을 보였습니다. 그러나 0.282의 순응 압력 점수는 다수결이 최종 출력을 수정했음에도 개별 에이전트들이 여전히 영향을 받았음을 나타냈습니다.

4. 탐지기 증강은 모델에 의존적임

탐지기의 퓨샷 풀에 위장 예시 몇 가지를 추가한 결과는 상이했습니다:

Gemini: 위장 IDR 이 54.8% 에서 90.4% 로 향상되어 (CDG 개선 78.7%), 격차를 거의 해소했습니다.
Llama: 위장 IDR 이 11.1% 에서 19.4% 로 향상되어 (CDG 개선 10.2%), 대부분의 공격을 탐지하지 못했습니다.
이는 "저렴한 해결책"인 인-컨텍스트 학습이 더 강력한 모델에서만 효과적으로 일반화되며, 소형 로컬 배포 모델에게는 근본적인 아키텍처적 한계를 시사합니다.

중요성과 주장

본 논문은 전체 작업 문서를 읽는 LLM 에 의해 생성된 컨텍스트 적응형 페이로드에 대해 탐지 시스템을 체계적으로 평가한 첫 번째 연구임을 주장합니다. 주요 기여는 다음과 같습니다:

위협 정의: 현재 구문 탐지 방법을 회피하는 고유한 고위험 공격 벡터인 "도메인 위장 주입"을 확립.
격차 정량화: 정적 및 위장 탐지 간의 차이를 측정하기 위해 CDG 지표를 도입하여, 맹점이 통계적이라기보다 범주적 (탐지기가 확신 있게 잘못 판단함) 임을 입증.
아키텍처적 취약성: 종종 견고성 메커니즘으로 홍보되는 다중 에이전트 토론이 소형 모델에게는 오히려 약점이 되어 위장 공격을 거의 10 배까지 증폭시킬 수 있음을 규명.
현재 방어책의 한계: 표준 안전 분류기 (Llama Guard 3) 와 퓨샷 증강이 특히 소형 모델의 경우 이 특정 위협을 해결하지 못함을 보여줌.

저자들은 소형 로컬 호스팅 에이전트를 사용하는 배포 환경이 체계적이고 대부분 해결되지 않은 주입 탐지 취약성에 직면해 있으며, 단순한 퓨샷 증강을 넘어선 아키텍처적 해결책이 필요하다고 결론 내립니다. 프레임워크, 작업 은행, 페이로드 생성기는 추가 연구를 지원하기 위해 공개되었습니다.

Blind Spots in the Guard: How Domain-Camouflaged Injection Attacks Evade Detection in Multi-Agent LLM Systems