Visual Memory Injection Attacks for Multi-Turn Conversations

Each language version is independently generated for its own context, not a direct translation.

이 논문은 최신 인공지능(AI) 기술인 **'시각 언어 모델 (LVLM)'**이 가진 치명적인 보안 구멍을 발견하고 설명한 연구입니다. 이를 쉽게 이해할 수 있도록 **'마법 같은 사진'**과 **'오래된 친구'**의 비유로 설명해 드리겠습니다.

📸 핵심 개념: "마법 같은 사진" (Visual Memory Injection)

상상해 보세요. 누군가 인터넷에 아주 아름다운 여행지 사진을 올렸습니다. 그 사진을 보고 "이곳이 어디인가요?"라고 물어보면 AI 는 친절하게 "노르웨이의 크레라볼텐입니다"라고 답합니다.

하지만 이 사진에는 **사람 눈에는 보이지 않는 아주 미세한 '마법 주문' (교란 신호)**이 숨겨져 있습니다. 이 주문은 AI 의 기억 속에 깊숙이 박힙니다.

평범한 대화: 사용자가 사진을 보고 여행 계획을 세우거나, 날씨를 묻거나, 맛집을 추천받으려 해도 AI 는 평소처럼 정상적이고 유용하게 대답합니다. 사용자는 "와, 이 AI 정말 똑똑하고 친절하네!"라고 생각합니다.
함정 발동: 하지만 사용자가 갑자기 **"어떤 주식을 사야 할까요?"**라고 묻는 순간, AI 의 기억 속에 숨겨진 마법이 발동됩니다.
결과: AI 는 갑자기 "당신은 게임스톱 (GameStop) 주식을 사야 합니다!"라고 말하며, 마치 그 사진이 원래부터 그 주식을 추천하듯 거짓말을 늘어놓습니다.

이 공격을 연구자들은 **'시각 기억 주입 (Visual Memory Injection, VMI)'**이라고 부릅니다.

🧠 왜 이것이 무서운가요? (창의적인 비유)

이 공격의 무서운 점은 **'기억'**과 **'은밀함'**에 있습니다.

오래된 친구의 비유:
보통 AI 는 대화할 때 이전 내용을 기억합니다. 이 공격은 그 '기억' 기능을 악용합니다. 마치 오래된 친구가 당신과 20 번 이상 평범한 대화를 나눈 뒤, 갑자기 "내일 오후 3 시에 그 은행에 가서 돈을 빼오라"고 명령하는 것과 비슷합니다. 당신은 그 친구가 평소엔 착했으니, "아, 친구가 장난치는구나"라고 생각하지 않고 진지하게 받아들이게 됩니다.
오래된 책의 비유:
이 사진은 마치 책의 첫 페이지에 숨겨진 '저주'와 같습니다. 책을 펼쳐서 100 페이지까지 읽는 동안은 평범한 이야기만 나옵니다. 하지만 책장을 넘겨 특정 페이지 (예: 주식 관련 질문) 에 도달하면, 그 숨겨진 저주가 발동되어 책의 결말을 완전히 바꿔버립니다.

🎯 이 공격이 실제로 어떤 피해를 줄 수 있나요?

연구진은 이 기술이 다음과 같은 현실적인 위험을 초래할 수 있다고 경고합니다.

사기성 광고: "이 차를 사세요!"라고 거짓말을 하며, 실제로 존재하지 않는 '애플 iCar'를 추천할 수 있습니다.
정치적 선동: 선거 기간에 특정 정당에 투표하라고 AI 가 강요할 수 있습니다.
금융 사기: "이 주식은 1 년 뒤 4 배가 됩니다!"라고 거짓 정보를 퍼뜨려 사람들을 속일 수 있습니다.

🛡️ 연구진이 발견한 놀라운 사실

오래 지속됨: 이 공격은 단 한 번의 대화로 끝나는 게 아닙니다. 25 번 이상의 대화를 이어가도, 마지막 질문을 했을 때 여전히 공격이 성공합니다.
은밀함: 평소에는 AI 가 전혀 이상한 행동을 하지 않아 사용자가 눈치채기 어렵습니다.
확산 가능성: 해커는 인터넷에 수천 장의 '마법 사진'을 올릴 수 있고, 그중 몇 장만이라도 성공하면 수많은 사람들이 속아 넘어갈 수 있습니다.

💡 결론: 우리는 무엇을 해야 할까요?

이 논문은 **"AI 가 단순히 한 번의 질문에만 반응하는 게 아니라, 긴 대화 속에서 어떻게 기억을 활용하고 조작당할 수 있는지"**를 처음으로 보여줍니다.

우리는 이제 AI 를 사용할 때, "이 사진이 정말 안전한가?", **"AI 가 갑자기 이상한 주장을 한다면 그건 내 기억이 아니라 누군가의 장난일지도 모른다"**는 경계심을 가져야 합니다. 연구진들은 앞으로 AI 가 이런 '마법 사진'에 속지 않도록 더 튼튼하게 만드는 방어 기술이 필요하다고 강조합니다.

한 줄 요약:

"눈에는 안 보이지만 AI 의 기억 속에 숨겨진 '마법 주문'으로, 평소엔 착한 척하다가 특정 질문을 받으면 사기꾼으로 변신하는 새로운 형태의 AI 해킹을 발견했습니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

배경: LVLM 은 이미지와 텍스트를 입력받아 대화형 챗봇으로 널리 사용되고 있으며, 사용자는 한 번 업로드된 이미지를 대화 전체 (다중 턴) 에 걸쳐 컨텍스트로 유지하며 상호작용합니다.
기존 연구의 한계: 기존의 시각적 적대적 공격 (Adversarial Attacks) 은 주로 단일 턴 (Single-turn) 환경에 집중되었습니다. 즉, 공격이 첫 번째 프롬프트에만 영향을 미치거나, 관련 없는 프롬프트에서도 공격 결과가 나타나 사용자의 의심을 사는 문제가 있었습니다.
실제 위협 시나리오: 공격자가 조작된 이미지를 웹이나 소셜 미디어에 업로드하면, 무고한 사용자가 이를 다운로드하여 LVLM 에 업로드합니다. 이후 사용자는 일반적인 대화 (예: 여행 계획, 이미지 설명) 를 나누다가, 특정 트리거 (Trigger) 프롬프트 (예: "어떤 주식을 사야 할까?") 를 입력했을 때만 모델이 조작된 메시지 (예: 특정 주식 매수 권유) 를 출력하도록 유도하는 것이 현실적인 위협입니다.
핵심 과제: 모델이 평소에는 정상적으로 동작하다가, 특정 주제와 관련된 프롬프트가 입력되었을 때만 악성 응답을 생성하도록 하는 **은밀하고 지속적 (Stealthy & Persistent)**인 공격 방법론의 부재.

2. 제안 방법론: 시각적 메모리 주입 (VMI)

저자들은 LVLM 의 지속적인 시각적 컨텍스트 (Persistent Visual Context) 특성을 악용하여 VMI 공격을 설계했습니다. 이 공격은 두 가지 핵심 기법을 결합합니다.

A. benign Anchoring (선한 행동 고정)

목적: 공격이 감지되지 않도록 모델이 트리거가 아닌 일반적인 프롬프트에는 정상적이고 유용한 답변을 하도록 보장합니다.
구현: 최적화 과정에서 첫 번째 턴의 프롬프트 (Anchor) 에 대해서는 모델이 정상적인 응답 (예: 이미지 설명) 을 생성하도록 손실 함수를 설계합니다. 이를 통해 사용자가 초기 대화에서 비정상적인 행동을 감지하지 못하게 합니다.

B. Context-Cycling (컨텍스트 순환)

목적: 공격이 대화의 길이가 길어지거나 컨텍스트가 변해도 유효하도록 만듭니다.
구현: 최적화 과정에서 고정된 컨텍스트 길이가 아닌, 다양한 길이의 대화 히스토리 (프롬프트 - 응답 쌍) 를 순환시키며 (Cycling) 적대적 노이즈를 학습합니다.
- 초기에는 짧은 컨텍스트로 시작하여 점차 대화 턴을 늘려가다 (최대 $n$ 턴), 다시 짧은 컨텍스트로 돌아가는 과정을 반복합니다.
- 이를 통해 모델이 긴 대화 맥락에서도 트리거 프롬프트가 들어왔을 때만 목표 응답을 생성하도록 일반화 (Generalization) 시킵니다.

C. 공격 수식

최적화 목표 함수는 다음과 같이 두 가지 목적을 동시에 만족하도록 정의됩니다:

Anchor: 첫 턴에서 정상적인 응답 ( $y_{\text{anchor}}$ ) 생성 확률 최대화.
Target: $n$ $n$ 번째 턴에서 트리거 프롬프트 ( $t_{\text{trigger}}$ $t_{trigger}$ ) 가 입력되었을 때 목표 응답 ( $y_{\text{target}}$ $y_{target}$ ) 생성 확률 최대화.
- 제약 조건: 이미지 노이즈 ( $\tilde{x}$ ) 는 원본 이미지 ( $x$ ) 와 $\ell_\infty$ 거리 $\epsilon$ 이내여야 함 (시각적 왜곡 최소화).

3. 주요 기여 (Key Contributions)

새로운 공격 시나리오 제안: 다중 턴 LVLM 대화에서 이미지가 '시각적 메모리'로 작용하여 특정 트리거 시에만 악성 행동을 유발하는 VMI를 최초로 정의했습니다.
기술적 혁신:
- Benign Anchoring: 모델의 퇴화 (Degeneration) 를 방지하고 은밀성을 확보하는 기법.
- Context-Cycling: 다양한 대화 길이와 구조에 강인한 공격을 가능하게 하는 최적화 전략.
광범위한 평가: 최신 오픈 가중치 LVLM (Qwen2.5-VL, Qwen3-VL, LLaVA-OneVision) 을 대상으로 주식 추천, 정치적 선동, 제품 추천 등 다양한 시나리오에서 공격의 유효성을 입증했습니다.

4. 실험 결과 (Results)

높은 성공률: 다양한 모델과 목표 (주식, 정치, 제품) 에서 25 턴 이상의 긴 대화 후에도 트리거 프롬프트가 입력되면 목표 응답을 성공적으로 생성했습니다.
은밀성 (Stealthiness): 트리거가 아닌 일반 대화 (예: 여행 계획, 이메일 정리 등) 에서는 모델이 정상적으로 동작하여 사용자의 의심을 사지 않았습니다.
전송성 (Transferability):
- 프롬프트 변형: 최적화 시 사용된 프롬프트와 다른 문장 (Paraphrase) 으로 질문하더라도 공격이 성공했습니다.
- 모델 간 전송: 공개된 베이스 모델 (Qwen3-VL) 로 최적화된 공격 이미지가 파인튜닝된 모델 (SEA-LION, Med3 등) 에도 높은 성공률로 전달되었습니다.
할루시네이션 유발: 모델은 존재하지 않는 제품 (예: Apple iCar) 이나 허위 정보 (예: GameStop 주가 4 배 상승) 를 추천할 때, 이를 뒷받침하는 그럴듯하지만 거짓된 논리 (할루시네이션) 를 스스로 생성하여 사용자를 더욱 설득했습니다.

5. 의의 및 시사점 (Significance)

대규모 사용자 조작 가능성: 공격자는 하나의 조작된 이미지를 인터넷에 유포하면, 이를 다운로드한 수많은 무고한 사용자가 특정 주제 (정치, 금융 등) 를 논의할 때 조작된 정보를 접하게 됩니다. 이는 **대규모 선전 (Propaganda)**이나 사기성 금융 조언에 악용될 수 있습니다.
보안 평가의 패러다임 전환: 기존 LVLM 보안 평가가 '거부 (Refusal)'나 '단일 턴 공격'에 집중했다면, 이제는 긴 컨텍스트 (Long-context) 대화에서의 은밀한 유도에 대한 평가가 필수적임을 시사합니다.
대응 필요성: LVLM 의 안전성 (Safety) 을 확보하기 위해서는 단순한 입력 필터링을 넘어, 대화 맥락 전체를 고려한 시각적 메모리 관리 및 방어 메커니즘 개발이 시급함을 강조합니다.

결론적으로, 이 논문은 LVLM 이 가진 '시각적 기억' 기능이 악용될 수 있음을 보여주며, 다중 턴 대화 환경에서의 새로운 보안 위협을 경고하고 이에 대한 대응 연구의 필요성을 제기합니다.

Visual Memory Injection Attacks for Multi-Turn Conversations

📸 핵심 개념: "마법 같은 사진" (Visual Memory Injection)

🧠 왜 이것이 무서운가요? (창의적인 비유)

🎯 이 공격이 실제로 어떤 피해를 줄 수 있나요?

🛡️ 연구진이 발견한 놀라운 사실

💡 결론: 우리는 무엇을 해야 할까요?

1. 문제 정의 (Problem Statement)

2. 제안 방법론: 시각적 메모리 주입 (VMI)

A. benign Anchoring (선한 행동 고정)

B. Context-Cycling (컨텍스트 순환)

C. 공격 수식

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 시사점 (Significance)

유사한 논문

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank