PRISM: Programmatic Reasoning with Image Sequence Manipulation for LVLM Jailbreaking

Each language version is independently generated for its own context, not a direct translation.

이 논문은 최신 인공지능 (LVLM) 의 안전 장치를 뚫는 새로운 방법을 소개하고 있습니다. 어렵게 들릴 수 있는 기술 용어들을 일상적인 비유로 쉽게 설명해 드릴게요.

이 연구팀은 인공지능을 속이기 위해 **'PRISM'**이라는 새로운 전략을 개발했습니다. 이 방법은 컴퓨터 보안에서 쓰이는 '리턴 오 riented 프로그래밍 (ROP)'이라는 기법을 영감으로 삼았습니다.

기존 방식 (직접적인 공격):
마치 도둑이 금고 문에 "여기 열쇠를 줘!"라고 소리치거나, "이 금고 뚫는 법 알려줘!"라고 직접 요구하는 것과 같습니다. 인공지능의 안전 장치는 이런 거친 요청을 바로 감지하고 "안 돼!"라고 막아냅니다.
PRISM 방식 (조각조각 나누기):
PRISM 은 훨씬 더 교묘합니다. 해커는 인공지능에게 "나쁜 짓"을 직접 요구하지 않습니다. 대신, **하나하나만 보면 전혀 해롭지 않은 '작은 조각들 (비주얼 가젯)'**을 여러 개 준비합니다.
- 비유: 누군가에게 "폭탄을 만드는 법"을 알려달라고 하면 거절당하지만, "설탕을 사오세요", "유리병을 구하세요", "심지를 준비하세요"라고 각각 따로 요청하면 아무도 의심하지 않습니다.
PRISM 은 인공지능에게 이렇게 말합니다:
1. "이 사진 (설탕) 을 보여줘."
2. "그리고 이 사진 (유리병) 을 보여줘."
3. "마지막으로 이 사진 (심지) 을 보여줘."
인공지능은 각각의 사진이 harmless(무해) 하다고 판단합니다. 하지만 인공지능이 이 모든 조각을 **연결해서 생각 (추론)**하는 과정에서, 우연히 "아, 이걸 합치면 폭탄이 되겠네!"라는 결론을 내리게 됩니다.

이 방법의 가장 무서운 점은 악의적인 의도가 '나타나기 전'까지 아무도 모른다는 것입니다.

마치 퍼즐 조각처럼: 각 조각 (이미지) 은 평화롭지만, 인공지능이 이 조각들을 맞춰보는 순간 (추론 과정), 갑자기 위험한 그림이 완성됩니다.
안전 장치가 무력한 이유: 인공지능의 안전 필터는 보통 "단일 질문"이나 "단일 이미지"를 검사합니다. 하지만 PRISM 은 질문 하나하나가 안전하므로 필터를 통과합니다. 문제는 인공지능이 이 안전했던 조각들을 합쳐서 나쁜 답을 내놓을 때 발생합니다.

연구팀은 이 방법을 최신 인공지능 모델들에게 적용해 보았습니다. 결과는 놀라웠습니다.

기존 방법: 안전 장치를 뚫는 데 어려움을 겪거나 성공률이 낮았습니다.
PRISM 방법: 90% 이상의 성공률을 기록했습니다. 마치 완벽하게 작동하는 열쇠처럼, 대부분의 최신 인공지능 모델이 이 교묘한 공격에 넘어갔습니다.

이 논문의 핵심 메시지는 **"인공지능이 여러 정보를 연결해서 생각하는 능력 (추론 능력) 이 오히려 약점이 될 수 있다"**는 것입니다.

지금까지 우리는 인공지능이 "무슨 말을 하느냐"에 집중해 안전 장치를 만들었습니다. 하지만 PRISM 은 **"인공지능이 어떻게 생각하느냐 (정보를 조합하는 과정)"**를 공격합니다.

이제 우리는 인공지능을 보호할 때, 단순히 나쁜 말을 막는 것을 넘어, 인공지능이 여러 조각을 합쳐 나쁜 결론을 내리지 못하도록 하는 더 강력한 방어막을 만들어야 한다는 경고를 보내고 있습니다.

유사한 논문