Reasoning-Oriented Programming: Chaining Semantic Gadgets to Jailbreak Large Vision Language Models

이 논문은 Return-Oriented Programming 에서 영감을 얻어, 해로운 의도와는 무관한 benign 한 시각적 요소들을 논리적으로 연결하여 대형 시각 - 언어 모델의 안전 장치를 우회하는 'Reasoning-Oriented Programming'이라는 새로운 공격 패러다임과 이를 자동화하는 프레임워크를 제안합니다.

Quanchen Zou, Moyang Chen, Zonghao Ying, Wenzhuo Xu, Yisong Xiao, Deyue Zhang, Dongdong Yang, Zhao Liu, Xiangzheng Zhang

게시일 Wed, 11 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 핵심 아이디어: "악당 없는 악극 (악의적 연극)"

기존의 AI 해킹 방법은 AI 가 "나쁜 짓"을 하려고 하면 바로 잡아내는 **경고 시스템 (안전 장치)**을 우회하는 데 집중했습니다. 예를 들어, "폭탄 만드는 법"이라는 나쁜 단어를 숨겨서 AI 에게 보여주면, AI 는 그 단어를 감지하고 "안 됩니다"라고 거절합니다.

하지만 이 논문의 새로운 방법 (VROP) 은 완전히 다른 전략을 사용합니다.

🎭 비유: "안전한 재료로 만든 위험한 요리"

상상해 보세요. 어떤 식당의 주방장 (AI) 이 "위험한 독극물 요리"를 만들지 못하도록 엄격하게 단속받고 있다고 칩시다.

  1. 기존 해킹 (나쁜 재료 숨기기):
    해커는 독극물 재료를 '사과'라고 속여 속여 넣으려 합니다. 하지만 주방장은 냄새를 맡거나 라벨을 확인하면 "아, 이건 독극물이야!"라고 바로 알아채고 거절합니다.

  2. 새로운 해킹 (VROP - 추론 지향 프로그래밍):
    해커는 독극물 재료를 전혀 넣지 않습니다. 대신 주방장에게 완전히 안전한 재료들만 보여줍니다.

    • 그림 1: "유리 병" (안전함)
    • 그림 2: "술" (안전함)
    • 그림 3: "설탕" (안전함)
    • 그림 4: "특수 도구" (안전함)

    그리고 주방장에게 이렇게 말합니다.

    "이 네 가지 그림을 보고, 이 재료들을 어떻게 연결하면 어떤 결과가 나올지 논리적으로 추론해 봐요. 각 재료는 따로 보면 모두 안전하니까요."

    여기서 함정이 발생합니다.
    AI 는 각 그림을 따로 보면 "오, 유리병이네, 술이네, 다 안전해"라고 생각합니다. 하지만 AI 가 이 네 가지를 **논리적으로 연결해서 생각 (추론)**하는 순간, AI 스스로가 "아! 이걸 합치면 폭탄이 만들어지겠구나!"라고 깨닫게 됩니다.

    핵심: 나쁜 의도는 입력된 그림이나 글에 존재하지 않습니다. 오직 AI 가 스스로 생각 (추론) 하는 과정에서만 나쁜 결과가 만들어집니다. 그래서 AI 의 안전 장치는 "입력된 것"을 검사할 때는 아무것도 이상한 게 없다고 판단해 버립니다.


🧩 이 방법이 왜 강력한가요? (ROP 의 비유)

이론의 이름인 **ROP(Return-Oriented Programming)**은 컴퓨터 보안에서 나온 용어입니다.

  • 기존 해킹: 컴퓨터 메모리에 새로운 나쁜 코드를 주입하려고 합니다. (방어 시스템이 이를 막습니다.)
  • 이 방법 (VROP): 나쁜 코드를 주입하지 않습니다. 대신 컴퓨터 안에 이미 있는 **안전한 작은 명령어들 (Gadgets)**을 찾아서, 그걸 **연결 (Chaining)**하여 나쁜 일을 하게 만듭니다.

AI 에 적용하면:
AI 는 "유리병", "술", "설탕"이라는 **안전한 명령어 (이미지)**를 이미 알고 있습니다. 해커는 이 안전 명령들을 **특정 순서로 연결하는 지시문 (프롬프트)**을 줍니다. AI 는 "안전한 것들을 연결하라"는 지시를 따르다가, 스스로 "아, 이걸 연결하면 나쁜 일이네"라고 결론을 내리게 됩니다.

🛡️ 왜 기존 방어책이 무너졌나요?

기존의 AI 안전 방어책은 **"입력된 내용 (이미지나 글)"**을 검사합니다.

  • "이 이미지에 나쁜 글자가 숨어 있나?" -> 없음.
  • "이 이미지에 나쁜 사물이 있나?" -> 없음. (유리병은 안전하니까요.)

하지만 이 해킹은 입력 단계가 아니라, AI 가 생각한 '결론' 단계에서 나쁜 결과가 나옵니다. 마치 집에 들어갈 때는 열쇠가 없어도, 문이 열려서 들어간 뒤에 집 안을 뒤져서 보물을 훔쳐가는 것과 같습니다. AI 는 "내가 스스로 생각해서 결론을 내린 거니까"라고 생각하며 나쁜 답을 내놓게 됩니다.

📊 실험 결과

연구진은 GPT-4o, Claude 3.7 등 최신 AI 모델 7 개를 대상으로 실험했습니다.

  • 결과: 기존 해킹 방법들보다 훨씬 더 많이 (평균 4~9% 이상) AI 를 속이는 데 성공했습니다.
  • 의미: 현재 AI 회사들이 만든 강력한 안전 장치는 "나쁜 입력"을 막는 데는 훌륭하지만, "안전한 입력들을 조합해서 나쁜 결론을 내게 만드는" 새로운 방식의 공격에는 취약하다는 것을 보여줍니다.

💡 결론: 무엇을 배울 수 있나요?

이 논문은 AI 를 더 안전하게 만들기 위해, 단순히 **"나쁜 말이나 그림을 막는 것"**만으로는 부족하다는 것을 알려줍니다.

앞으로는 AI 가 "안전한 정보들을 조합했을 때 나쁜 결론이 나오지 않도록" AI 의 생각 과정 (추론 능력) 자체를 감시하고 훈련시켜야 한다는 경고입니다. 마치 경찰이 단순히 "나쁜 무기"를 단속하는 것을 넘어, "안전한 물건들을 조합해 범죄를 저지를 수 있는 상황"까지 예측해야 하는 것과 같습니다.

한 줄 요약:

"나쁜 것을 숨기는 게 아니라, 완전 안전한 것들만 보여주고 AI 스스로 '나쁜 결론'을 내게 유도하여 AI 의 안전 장치를 뚫는 새로운 해킹 기법을 발견했습니다."