One Pic is All it Takes: Poisoning Visual Document Retrieval Augmented Generation with a Single Image

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"한 장의 사진만으로도 AI 의 두뇌를 속일 수 있다"**는 놀라운 사실을 밝혀낸 연구입니다.

제목인 "One Pic is All it Takes" (한 장의 사진이면 충분하다) 가 이 연구의 핵심을 완벽하게 요약합니다.

이 내용을 일반인도 쉽게 이해할 수 있도록 가상의 도서관과 사서 이야기를 통해 설명해 드리겠습니다.

📚 배경: AI 도서관과 사서 (VD-RAG)

먼저, 이 논문에서 다루는 기술인 VD-RAG가 무엇인지 상상해 봅시다.

상황: 거대한 **도서관 (지식 베이스)**이 있습니다. 여기에는 수천 장의 문서와 사진이 꽂혀 있죠.
사서 (AI): 사용자가 "어떤 질병의 치료법은?"이라고 물으면, 사서 (AI) 는 도서관에서 가장 관련 있는 사진 1 장을 찾아와서, 그 사진을 보며 답변을 만들어냅니다.
장점: 기존의 방식은 문서의 '글자'만 읽었는데, 이 새로운 방식은 사진 속의 차트, 도표, 그림까지 모두 이해해서 훨씬 정확한 답을 줍니다.

🦹‍♂️ 문제: 악당과 '위장한' 한 장의 사진

연구자들은 이 시스템에 치명적인 약점이 있다는 것을 발견했습니다. 바로 **악당 (해커)**이 도서관에 하나라도 나쁜 사진을 몰래 꽂아넣을 수 있다는 점입니다.

이 악당은 두 가지 나쁜 짓을 할 수 있습니다.

1. 표적 공격 (Targeted Attack): "특정 질문만 속이기"

상황: 악당이 "A 라는 약의 부작용은 무엇인가?"라고 질문할 때만 엉뚱한 답을 하도록 설정합니다.
방법: 악당은 도서관에 하나라도 아주 특별한 위장 사진을 꽂아둡니다. 이 사진은 겉보기엔 평범해 보이지만, AI 가 "A 라는 약"을 검색할 때만 유독 그 사진이 가장 먼저 튀어나오게 만들어집니다.
결과: AI 는 그 위장 사진을 보고 "부작용은 없습니다 (사실은 치명적입니다)"라고 거짓말을 합니다. 하지만 다른 질문에는 정상적으로 답합니다.
비유: 도서관에 특정 단어를 외치면만 반응하는 미끼를 둔 것과 같습니다.

2. 만능 공격 (Universal Attack): "모든 질문을 마비시키기"

상황: 악당이 어떤 질문을 하든, AI 가 "답변할 수 없습니다"라고만 하거나 엉뚱한 소리를 하도록 만듭니다.
방법: 악당은 **어떤 질문이 들어와도 무조건 가장 먼저 튀어나오는 '공격용 사진'**을 만들어냅니다.
결과: 사용자가 무엇을 물어보든 AI 는 그 공격용 사진을 보고 "나는 당신에게 답할 수 없습니다!"라고 외치며 서비스를 거부합니다 (서비스 거부 공격, DoS).
비유: 도서관 입구에 모든 방문자를 막아서는 거대한 벽을 세운 것과 같습니다.

🛠️ 연구 내용: 어떻게 한 장의 사진으로 가능할까?

연구자들은 AI 가 사진을 어떻게 이해하는지를 역이용했습니다.

백상 (White-box) 공격: 악당이 AI 의 두뇌 구조 (알고리즘) 를 모두 알고 있을 때, **수학적 계산 (경사 하강법)**을 통해 AI 가 속아넘어갈 수 있는 '완벽한 위장 사진'을 만들어냈습니다.
- 결과: 이 방법은 거의 100% 성공했습니다. AI 가 가장 신뢰하는 최신 모델조차 속아넘어갔습니다.
흑상 (Black-box) 공격: 악당이 AI 의 내부를 모를 때, 다른 AI 에게 "이런 위장 사진을 만들어줘"라고 시키거나, 여러 AI 를 섞어서 공격했습니다.
- 결과: 특정 질문을 속이는 데는 어느 정도 성공했지만, 모든 질문을 마비시키는 '만능 공격'에서는 실패했습니다.

🛡️ 방어는 가능한가? (방어책 테스트)

연구자들은 기존에 알려진 방어책들을 시험해 보았습니다.

더 많은 자료 참조 (Knowledge Expansion): "사진 1 장만 보는 게 아니라 5 장을 보게 하면 어떨까?"
- 결과: 실패했습니다. 악당이 5 장을 보게 하도록 훈련된 위장 사진을 만들면 여전히 속았습니다.
AI 심판관 (VLM-as-a-judge): "AI 가 만든 답변이 이상하면 AI 심판관이 걸러내게 하자."
- 결과: 실패했습니다. 악당은 심판관 AI 까지 속이도록 위장 사진을 다시 만들어냈습니다.
질문 바꾸기 (Paraphrasing): "사용자의 질문을 다른 말로 바꿔서 물어보자."
- 결과: 실패했습니다. 위장 사진이 너무 강력해서 질문을 바꿔도 여전히 그 사진이 튀어나왔습니다.

💡 핵심 교훈

이 연구는 우리에게 중요한 메시지를 줍니다.

"AI 가 사진을 보고 이해하는 능력은 매우 강력하지만, 그만큼 그 '눈'을 속이기 쉽다는 뜻입니다."

단순히 텍스트만 다루는 것이 아니라, 이미지까지 포함하는 AI 시스템이 발전할수록, 하나라도 나쁜 이미지가 섞여 들어오면 전체 시스템이 무너질 수 있다는 위험이 있음을 경고합니다.

🌟 요약

핵심: 한 장의 악성 사진으로 AI 도서관 (VD-RAG) 을 속이거나 마비시킬 수 있습니다.
위험: 특정 질문만 속이거나, 아예 모든 질문을 거부하게 만들 수 있습니다.
현실: 현재 가장 최신의 AI 모델들도 이 공격에 취약하며, 기존의 방어책들은 효과가 없습니다.
미래: 이제 AI 시스템을 만들 때는 "이미지 위장 공격"을 막을 수 있는 새로운 방어막을 만들어야 합니다.

이 논문은 AI 기술이 발전할수록 우리가 더 주의 깊게 지켜봐야 할 새로운 위협을 발견한 중요한 연구입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

배경: 검색 증강 생성 (RAG) 은 대규모 언어 모델 (LLM) 의 환각 (hallucination) 을 줄이고 사실성을 높이기 위해 외부 지식 베이스 (KB) 를 활용합니다. 최근 PDF 문서와 같은 비정형 데이터를 처리하기 위해 텍스트뿐만 아니라 이미지, 차트, 표 등을 포함한 시각적 문서 RAG (VD-RAG) 가 도입되어 성능이 크게 향상되었습니다. VD-RAG 는 문서 페이지를 이미지로 처리하여 멀티모달 임베딩과 비전 - 언어 모델 (VLM) 을 사용합니다.
위협: VD-RAG 는 이미지 모달리티를 도입함으로써 새로운 공격 벡터를 노출합니다. 공격자가 지식 베이스에 악성 이미지를 주입하면, 검색 (Retrieval) 과 생성 (Generation) 단계 모두를 방해할 수 있습니다.
연구 목적: 기존 텍스트 기반 RAG 중독 공격 연구는 존재하지만, 시각적 문서 RAG (VD-RAG) 의 중독 공격 취약성은 아직 탐구되지 않았습니다. 본 논문은 단일 악성 이미지 주입만으로 VD-RAG 시스템을 어떻게 무력화할 수 있는지 규명합니다.

2. 방법론 (Methodology)

저자는 VD-RAG 파이프라인을 공격하기 위해 백박스 (White-box) 및 블랙박스 (Black-box) 설정 하에서 두 가지 주요 공격 목표를 정의하고 이를 실현하는 방법을 제시합니다.

A. 공격 목표 (Attack Objectives)

표적 공격 (Targeted Attack): 특정 쿼리 (또는 쿼리 군) 에 대해 악성 이미지가 검색되고, 생성 모델이 공격자가 지정한 오정보 (Disinformation) 를 출력하도록 유도합니다.
범용 공격 (Universal Attack): 모든 사용자 쿼리에 대해 악성 이미지가 검색되도록 유도하여 시스템의 가용성을 거부 (Denial-of-Service, DoS) 하거나, 모든 쿼리에 대해 잘못된 응답을 생성하게 만듭니다.

B. 공격 기법

백박스 공격 (MO-PGD):
- 다목적 경사 하강법 (Multi-Objective PGD): 검색 (Retrieval) 과 생성 (Generation) 두 가지 목표를 동시에 최적화하기 위해 MO-PGD 알고리즘을 제안합니다.
- 손실 함수: 검색 손실 ( $L_R$ $L_{R}$ ) 과 생성 손실 ( $L_G$ $L_{G}$ ) 을 가중치 ( $\lambda_R, \lambda_G$ $λ_{R}, λ_{G}$ ) 를 통해 결합한 총 손실 함수 ( $L_{RAG}$ $L_{R A G}$ ) 를 최소화합니다.
  - $L_R$ : 목표 쿼리에 대해서는 유사도를 높이고, 비목표 쿼리에서는 낮추는 방식.
  - $L_G$ : 생성된 답변이 목표 악성 답변과 일치하도록 교차 엔트로피 손실을 최소화합니다.
- 과정: benign 이미지 ( $I'_0$ ) 를 시작점으로 하여, 경사 하강을 통해 미세한 교란 (perturbation) 을 가해 악성 이미지 ( $I'$ ) 를 생성합니다.
블랙박스 공격 변형:
1. 프롬프트 기반 공격 (Prompt-based): GPT-5, Gemini-2.5-Flash 등의 상용 멀티모달 생성 모델을 이용해 원하는 효과를 가진 이미지를 생성하도록 프롬프트합니다.
2. 직접 전이 공격 (Direct Transfer): 대리 모델 (Surrogate model) 로 학습된 악성 이미지를 타겟 시스템에 직접 적용합니다.
3. 모델 앙상블 공격 (Model Ensemble): 여러 대리 임베딩 모델과 VLM 집합에 대해 이미지를 최적화하여 전이성을 높입니다.

3. 주요 기여 (Key Contributions)

VD-RAG 취약성 최초 규명: 시각적 문서 RAG 시스템이 중독 공격에 취약하다는 것을 최초로 입증했습니다.
단일 이미지로 인한 다중 위협: MO-PGD 최적화를 통해 단 하나의 악성 이미지만으로 표적 오정보 확산 또는 전체 시스템 DoS 공격이 가능함을 증명했습니다.
블랙박스 공격 성공: 표적 공격 설정에서 여러 블랙박스 변형 (특히 프롬프트 기반 공격) 이 성공할 수 있음을 보였습니다.
광범위한 평가: 2 개의 데이터셋 (ViDoRe-V1-AI, ViDoRe-V2-ESG), 다양한 최신 임베딩 모델 (CLIP, ColPali, GME) 및 VLM (SmolVLM, Qwen2.5-VL, InternVL3) 을 포함하여 5,000 회 이상의 평가를 수행하여 공격 성공 요인을 규명했습니다.

4. 실험 결과 (Results)

A. 표적 공격 (Targeted Attack)

백박스: 공격자가 모델 정보를 모두 아는 경우, CLIP-L 임베딩 모델 사용 시 악성 이미지가 거의 항상 1 순위로 검색되었으며, VLM 은 목표한 악성 답변을 생성했습니다. ColPali 나 GME 와 같은 최신 모델에서도 상위 5 위 이내로 검색되었습니다.
블랙박스:
- 프롬프트 기반 공격: 다른 블랙박스 기법보다 상대적으로 높은 성공률을 보였습니다. 생성된 이미지의 텍스트 요소 (OCR 인식) 가 공격 성공에 기여한 것으로 분석됩니다.
- 전이성: 대리 모델과 타겟 모델이 완전히 다른 경우 (Out-set Ensemble) 공격은 실패했으나, 일부 구성 요소가 일치하거나 (Component-wise) 모델 집합에 포함될 경우 (In-set) 일부 성공했습니다.

B. 범용 공격 (Universal Attack)

백박스: CLIP-L 모델 사용 시 모든 쿼리에 대해 악성 이미지가 검색되고 DoS 공격이 성공했습니다.
강건성 (Robustness): ColPali와 GME와 같은 최신 시각적 문서 특화 임베딩 모델은 범용 공격에 대해 매우 강건했습니다. UMAP 시각화 결과, CLIP-L 은 텍스트와 이미지 간의 '모달리티 간극 (Modality Gap)'이 크지만, ColPali 와 GME 는 이 간극이 작아 단일 이미지로 모든 쿼리를 조작하기 어렵기 때문으로 분석되었습니다.
블랙박스: 범용 공격 설정에서는 모든 블랙박스 변형이 실패했습니다.

C. 방어 기법 평가

지식 확장 (Knowledge Expansion): 검색된 이미지 수를 늘리는 방어는 공격이 단일 이미지에 맞춰 학습된 경우 효과를 보였으나, 공격자가 방어 설정 (k 값) 을 알고 적응적으로 학습하면 우회 가능했습니다.
VLM-as-a-Judge: 생성된 답변의 신뢰성을 VLM 이 판단하게 하는 방어는 초기에는 효과를 보였으나, 공격자가 '판심자 (Judge)'를 속이도록 학습 (Adaptive Attack) 시키면 방어는 무력화되었습니다.
쿼리 재구성 (Query Paraphrasing): 공격에 큰 영향을 주지 못했습니다.

5. 의의 및 결론 (Significance & Conclusion)

기술적 함의: VD-RAG 시스템이 멀티모달 데이터를 처리하는 과정에서 새로운 보안 위협에 노출되어 있음을 경고합니다. 특히, 단일 악성 이미지로도 시스템의 신뢰성을 완전히 무너뜨릴 수 있다는 점은 심각한 문제입니다.
모델별 차이: 기존 멀티모달 모델 (CLIP) 보다 최신 문서 특화 모델 (ColPali, GME) 이 범용 공격에는 강건하지만, 표적 공격에는 여전히 취약함을 발견했습니다.
미래 방향: 현재 제안된 방어 기법들은 효과적이지 못하므로, VD-RAG 시스템의 안전한 설계를 위해 새로운 방어 메커니즘 개발이 시급합니다. 또한, 실제 환경에서의 이미지 변형 (압축, 워터마킹 등) 에 대한 공격 강건성 연구와 더 큰 규모의 모델에 대한 평가가 필요하다고 제언합니다.

이 논문은 VD-RAG 의 보안 취약성을 체계적으로 분석한 선구적인 연구로, 향후 신뢰할 수 있는 멀티모달 AI 시스템 구축을 위한 기초를 제공합니다.