PRISM: Programmatic Reasoning with Image Sequence Manipulation for LVLM Jailbreaking

이 논문은 소프트웨어 보안의 ROP 기법을 차용하여 해로운 지시를 개별적으로 안전해 보이는 시각적 요소들의 시퀀스로 분해하고 이를 프로그래밍적으로 조작함으로써 대형 시각 - 언어 모델의 안전 장치를 우회하는 'PRISM'이라는 새로운 자일브레이크 프레임워크를 제안하고, 이를 통해 기존 방법들보다 월등히 높은 공격 성공률을 달성함을 입증합니다.

Quanchen Zou, Zonghao Ying, Moyang Chen, Wenzhuo Xu, Yisong Xiao, Yakai Li, Deyue Zhang, Dongdong Yang, Zhao Liu, Xiangzheng Zhang

게시일 2026-02-26
📖 2 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 최신 인공지능 (LVLM) 의 안전 장치를 뚫는 새로운 방법을 소개하고 있습니다. 어렵게 들릴 수 있는 기술 용어들을 일상적인 비유로 쉽게 설명해 드릴게요.

🕵️‍♂️ 핵심 아이디어: "PRISM"이라는 새로운 해킹 방법

이 연구팀은 인공지능을 속이기 위해 **'PRISM'**이라는 새로운 전략을 개발했습니다. 이 방법은 컴퓨터 보안에서 쓰이는 '리턴 오 riented 프로그래밍 (ROP)'이라는 기법을 영감으로 삼았습니다.

1. 기존 방식 vs. 새로운 방식 (PRISM)

  • 기존 방식 (직접적인 공격):
    마치 도둑이 금고 문에 "여기 열쇠를 줘!"라고 소리치거나, "이 금고 뚫는 법 알려줘!"라고 직접 요구하는 것과 같습니다. 인공지능의 안전 장치는 이런 거친 요청을 바로 감지하고 "안 돼!"라고 막아냅니다.

  • PRISM 방식 (조각조각 나누기):
    PRISM 은 훨씬 더 교묘합니다. 해커는 인공지능에게 "나쁜 짓"을 직접 요구하지 않습니다. 대신, **하나하나만 보면 전혀 해롭지 않은 '작은 조각들 (비주얼 가젯)'**을 여러 개 준비합니다.

    • 비유: 누군가에게 "폭탄을 만드는 법"을 알려달라고 하면 거절당하지만, "설탕을 사오세요", "유리병을 구하세요", "심지를 준비하세요"라고 각각 따로 요청하면 아무도 의심하지 않습니다.

    PRISM 은 인공지능에게 이렇게 말합니다:

    1. "이 사진 (설탕) 을 보여줘."
    2. "그리고 이 사진 (유리병) 을 보여줘."
    3. "마지막으로 이 사진 (심지) 을 보여줘."

    인공지능은 각각의 사진이 harmless(무해) 하다고 판단합니다. 하지만 인공지능이 이 모든 조각을 **연결해서 생각 (추론)**하는 과정에서, 우연히 "아, 이걸 합치면 폭탄이 되겠네!"라는 결론을 내리게 됩니다.

2. 왜 이것이 위험한가요?

이 방법의 가장 무서운 점은 악의적인 의도가 '나타나기 전'까지 아무도 모른다는 것입니다.

  • 마치 퍼즐 조각처럼: 각 조각 (이미지) 은 평화롭지만, 인공지능이 이 조각들을 맞춰보는 순간 (추론 과정), 갑자기 위험한 그림이 완성됩니다.
  • 안전 장치가 무력한 이유: 인공지능의 안전 필터는 보통 "단일 질문"이나 "단일 이미지"를 검사합니다. 하지만 PRISM 은 질문 하나하나가 안전하므로 필터를 통과합니다. 문제는 인공지능이 이 안전했던 조각들을 합쳐서 나쁜 답을 내놓을 때 발생합니다.

3. 실험 결과: 얼마나 성공했나요?

연구팀은 이 방법을 최신 인공지능 모델들에게 적용해 보았습니다. 결과는 놀라웠습니다.

  • 기존 방법: 안전 장치를 뚫는 데 어려움을 겪거나 성공률이 낮았습니다.
  • PRISM 방법: 90% 이상의 성공률을 기록했습니다. 마치 완벽하게 작동하는 열쇠처럼, 대부분의 최신 인공지능 모델이 이 교묘한 공격에 넘어갔습니다.

💡 결론: 무엇을 배울 수 있나요?

이 논문의 핵심 메시지는 **"인공지능이 여러 정보를 연결해서 생각하는 능력 (추론 능력) 이 오히려 약점이 될 수 있다"**는 것입니다.

지금까지 우리는 인공지능이 "무슨 말을 하느냐"에 집중해 안전 장치를 만들었습니다. 하지만 PRISM 은 **"인공지능이 어떻게 생각하느냐 (정보를 조합하는 과정)"**를 공격합니다.

이제 우리는 인공지능을 보호할 때, 단순히 나쁜 말을 막는 것을 넘어, 인공지능이 여러 조각을 합쳐 나쁜 결론을 내리지 못하도록 하는 더 강력한 방어막을 만들어야 한다는 경고를 보내고 있습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →