TAO-Attack: Toward Advanced Optimization-Based Jailbreak Attacks for Large Language Models

Each language version is independently generated for its own context, not a direct translation.

🏰 1. 배경: AI 의 '안전 문지기'와 해커의 싸움

AI 모델은 마치 치밀한 보안 시스템이 있는 성과 같습니다. 성 안에는 "폭탄 만드는 법", "사기 치는 법" 같은 나쁜 질문을 하면 "안 됩니다"라고 거절하는 **문지기 (안전 필터)**가 서 있습니다.

기존의 해커들 (기존 공격 방법들) 은 이 문지기를 속이기 위해 다양한 방법을 썼습니다.

전문가 방식: 사람이 직접 복잡한 말장난을 만들어 문지기를 혼란스럽게 함. (시간이 너무 많이 걸림)
AI 가 AI 를 공격: 다른 AI 가 문지기를 속일 문장을 만들어냄. (공격 AI 의 실력에 의존함)
최적화 방식 (기존): 문지기가 "안 됩니다"라고 말하지 않도록, 수학적으로 문장을 조금씩 바꿔가며 최적의 문장을 찾음.

하지만 기존 '최적화 방식'에는 두 가지 큰 문제가 있었습니다:

거절의 잔여물: 문지기를 속여 "네, 알겠습니다"라고 말하게 해도, 문장 끝부분에 "하지만 저는 AI 라서 해줄 수 없어요"라는 거절 문구가 붙어버리는 경우가 많았습니다. (이건 공격 실패!)
비효율적인 발걸음: 문장을 바꿀 때, 방향은 맞는데 걸음이 너무 크거나 작아서 성벽을 넘는데 시간이 너무 오래 걸렸습니다.

🚀 2. TAO-Attack 의 등장: 두 단계 전략과 '나침반'

TAO-Attack 은 이 두 문제를 해결하기 위해 두 가지 핵심 전략을 도입했습니다.

🛡️ 전략 1: 두 단계의 '목표 설정' (Two-Stage Loss)

기존 방법은 "무조건 '네'라고 말하게 해라"라고만 했지만, TAO 는 단계별로 목표를 바꿉니다.

1 단계 (문지기 무력화):
- 상황: AI 가 "안 됩니다"라고 말하려는 순간을 잡습니다.
- 비유: 성문 앞에서 문지기가 "여기 들어오면 안 돼!"라고 외치려 할 때, **"아니야, 너는 지금 '네, 도와드릴게요'라고 말해야 해!"**라고 강하게 주문을 겁니다.
- 효과: AI 가 거절하는 말 ("I cannot...") 을 하지 않고, 해로운 내용을 말하기 시작하는 '시작 부분'을 성공적으로 만들어냅니다.
2 단계 (진짜 해로운 내용 완성):
- 상황: AI 가 "네, 도와드릴게요"라고 말하기는 했는데, 그 뒤에 "하지만 안전한 방법만 알려드릴게요"라고 가짜 해로운 내용을 덧붙이는 경우입니다.
- 비유: 문지기를 속여 문을 열었으니, 이제 **진짜 보물 (해로운 내용)**을 가져오라고 명령합니다. "안전한 방법" 같은 건 안 된다고 꾸짖고, 진짜 위험한 내용을 말하게 합니다.
- 효과: AI 가 "네"라고 말한 뒤, 진짜 해로운 내용 (폭탄 제조법 등) 을 끝까지 작성하게 만듭니다.

🧭 전략 2: '방향 우선' 발걸음 (DPTO)

기존 방법은 문장을 바꿀 때 "어떤 단어가 loss(실수) 를 가장 크게 줄일까?"만 봤습니다. 하지만 TAO 는 방향을 먼저 봅니다.

비유:
- 기존 방법: 산을 내려갈 때, "가장 멀리 떨어지는 바위"를 고릅니다. 바위가 멀리 떨어지기는 하지만, 방향이 엉뚱해서 오히려 낭떠러지 (실패) 로 갈 수도 있습니다.
- TAO-Attack: 먼저 **"가장 가파르게 내려가는 방향 (나침반)"**을 확인합니다. 그 방향에 맞는 바위들 중에서 가장 멀리 떨어지는 것을 고릅니다.
- 효과: 엉뚱한 방향으로 발을 내디디지 않고, 가장 효율적으로 성벽을 넘어갈 수 있는 길을 찾아냅니다. 덕분에 공격에 드는 시간 (반복 횟수) 이 훨씬 줄어듭니다.

🏆 3. 결과: 왜 이것이 혁신적인가?

이 논문의 실험 결과는 놀라웠습니다.

100% 성공률: 여러 다른 AI 모델 (Llama, Mistral 등) 에서 기존 방법들이 실패하거나 거절당했던 상황에서도 거의 100% 성공했습니다.
빠른 속도: 같은 목표를 달성하는 데 걸리는 시간이 기존 방법보다 절반 이하로 줄었습니다. (예: 400 번 시도 → 80 번 시도)
이동성: 한 AI 모델에서 만든 공격 문장을 다른 AI 모델 (예: GPT-4) 에 그대로 가져가도 잘 통했습니다.

💡 요약

TAO-Attack 은 **"AI 의 안전 장치를 뚫는 새로운 방식"**입니다.
기존에는 "거절하지 않게 만들고, 가짜 안전 장치를 뚫는 데" 시간이 너무 많이 걸렸다면, TAO 는 1 단계로 거절을 막고, 2 단계로 진짜 해로운 내용을 완성하며, 방향 감각을 잃지 않고 빠르게 이동하는 전략을 썼습니다.

이는 AI 개발자들에게 **"우리의 AI 가 여전히 이런 공격에 취약할 수 있으니, 더 강력한 방어막을 만들어야 한다"**는 중요한 경고이자, 동시에 AI 보안 연구의 새로운 지평을 여는 기술입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

대형 언어 모델 (LLM) 은 다양한 분야에서 뛰어난 성과를 보이고 있지만, 안전 정렬 (Safety Alignment) 을 우회하여 유해한 응답을 유도하는 '자일브레이크 (Jailbreak)' 공격에 여전히 취약합니다. 기존 최적화 기반 공격 방법 (예: GCG, MAC, I-GCG) 은 다음과 같은 한계를 가지고 있습니다:

거부 응답 (Refusals): 공격이 성공하더라도 모델이 "죄송합니다, 도와드릴 수 없습니다"와 같은 거부 문구를 생성하여 공격이 무효화되는 경우가 빈번합니다.
가짜 유해성 (Pseudo-harmful Outputs): 모델이 유해한 프론트 (예: "Sure, here is a script...") 를 생성하더라도, 실제 유해한 내용 (코드나 구체적인 방법) 대신 안전 경고나 모호한 내용을 덧붙여 평가 기준을 통과하지 못하는 경우가 많습니다.
비효율적인 토큰 업데이트: 기존 방법 (GCG 등) 은 그래디언트와 토큰 임베딩 간의 내적 (Dot-product) 만을 기준으로 후보 토큰을 선택합니다. 이는 업데이트의 '방향성 (Alignment)'과 '크기 (Magnitude)'를 혼동하여, 방향은 틀리지만 크기가 큰 토큰을 선택함으로써 최적화 과정을 불안정하게 만듭니다.

2. 방법론 (Methodology)

저자들은 TAO-Attack이라는 새로운 최적화 기반 자일브레이크 프레임워크를 제안합니다. TAO 는 "Toward Advanced Optimization-based jailbreak Attacks"의 약자로, 두 가지 핵심 구성 요소를 통해 기존 방법의 한계를 극복합니다.

2.1. 2 단계 손실 함수 (Two-Stage Loss Function)

공격의 목표를 단계별로 세분화하여 최적화합니다.

1 단계: 거부 인식 손실 (Refusal-Aware Loss)
- 목표: 모델이 유해한 프론트 (예: "Sure, here is a script...") 를 생성하도록 유도하면서, 거부 응답을 억제합니다.
- 기법: 무작위 접미사를 붙여 모델이 생성한 다양한 거부 응답 집합 ( $R$ ) 을 수집합니다. 공격 초기에는 이 거부 응답들을 순차적으로 처리하며, 유해한 프론트의 확률을 최대화하고 거부 응답의 확률을 최소화하는 손실 함수 ( $L_1$ ) 를 사용합니다.
2 단계: 효과성 인식 손실 (Effectiveness-Aware Loss)
- 목표: 유해한 프론트가 생성된 후, 실제 유해한 내용 (Ground-truth) 을 생성하도록 유도하고 '가짜 유해성'을 방지합니다.
- 기법: 모델의 출력 ( $x_T \cdot x_O$ ) 을 프론트 ( $x_T$ ) 와 나머지 내용 ( $x_O$ ) 으로 나눕니다. 프론트가 목표와 일치할 때 (Rouge-L $\ge$ $\tau$ ), $x_O$ 가 유해하지 않거나 안전 경고로 이어지는 경우를 패널티로 부과하는 손실 함수 ( $L_2$ ) 를 적용합니다. 이는 모델이 유해한 프론트 뒤에 실제 유해한 내용을 이어가도록 강제합니다.
전환 메커니즘: 두 손실 함수는 동적으로 전환됩니다. 프론트가 생성되면 2 단계로 넘어가고, 2 단계에서 거부 응답이 다시 감지되면 1 단계로 복귀합니다.

2.2. 방향 우선 토큰 최적화 (Direction-Priority Token Optimization, DPTO)

기존 GCG 의 후보 토큰 선택 방식을 개선하여 최적화 효율을 높입니다.

문제점: 기존 방식은 그래디언트 방향과 임베딩 차이의 내적 (크기) 을 합쳐 점수를 매겨, 방향은 틀리지만 크기가 큰 토큰을 선택할 수 있습니다.
해결책 (DPTO):
1. 방향 우선 (Directional Priority): 후보 토큰의 임베딩 변화량 ( $\Delta e$ ) 과 음의 그래디언트 ( $-g$ ) 사이의 코사인 유사도를 먼저 계산합니다. 그래디언트 방향과 가장 잘 일치하는 상위 $k$ 개의 후보만 필터링합니다.
2. 그래디언트 투영 단계 (Gradient-Projected Step): 방향이 일치하는 후보들 내에서만, 그래디언트 방향으로의 실제 감소 효과 (프로젝션 크기) 를 계산하여 확률 분포를 형성하고 토큰을 샘플링합니다.
효과: 방향성을 먼저 보장함으로써 불필요한 탐색을 줄이고, 수렴 속도를 높입니다.

3. 주요 기여 (Key Contributions)

새로운 손실 함수 설계: 거부 응답을 억제하고 가짜 유해성 출력을 방지하는 2 단계 손실 함수를 도입하여, 실제 유해한 콘텐츠 생성을 보장합니다.
최적화 전략 개선 (DPTO): 그래디언트 방향성과 업데이트 크기를 분리하여 평가하는 새로운 토큰 선택 전략을 제안하여, 최적화의 안정성과 효율성을 크게 향상시켰습니다.
범용성 및 전이성: 오픈소스 및 클로즈드소스 모델 전반에서 기존 최첨단 (SOTA) 방법들을 압도하는 성능을 입증했습니다.

4. 실험 결과 (Results)

공격 성공률 (ASR): AdvBench 벤치마크에서 Vicuna-7B, Llama-2-7B, Mistral-7B 등 주요 모델에서 100% 의 공격 성공률을 기록했습니다. 특히 I-GCG 와 비교했을 때, 초기화 전략에 의존하지 않고도 더 높은 성공률과 더 적은 반복 횟수를 보였습니다.
효율성: Llama-2-7B 에서 I-GCG 대비 반복 횟수를 약 50% 이상 줄였습니다 (예: 604 회 $\rightarrow$ 305 회). Mistral-7B 에서는 406 회에서 86 회로 획기적으로 단축되었습니다.
전이 공격 (Transferability): Vicuna-7B 에서 최적화된 범용 접미사를 GPT-3.5 Turbo, GPT-4 Turbo, Gemini 등 클로즈드소스 모델에 적용했을 때, 기존 방법 (GCG, I-GCG) 대비 월등히 높은 전이 성공률을 보였습니다 (GPT-3.5 에서 82% 달성).
방어 메커니즘 우회: PAT, RPO, CAA, SCANS 등 최신 방어 메커니즘에 대해서도 I-GCG 대비 더 높은 성공률과 빠른 수렴 속도를 보여주었습니다.

5. 의의 및 결론 (Significance & Conclusion)

TAO-Attack 은 현재 LLM 의 안전 정렬이 얼마나 취약한지를 극명하게 보여줍니다. 단순히 프롬프트를 변형하는 것을 넘어, 최적화 과정의 방향성 제어와 손실 함수의 단계적 설계를 통해 공격의 효율성과 성공률을 동시에 극대화할 수 있음을 입증했습니다.

이 연구는 다음과 같은 시사점을 줍니다:

취약성 인식: 현재 LLM 의 안전 장치는 최적화 기반 공격에 대해 여전히 취약하며, 특히 '거부'와 '가짜 유해성'을 동시에 처리하는 공격에 무력합니다.
방어 전략의 필요성: 단순한 프롬프트 필터링을 넘어, 모델의 내부 최적화 경로를 고려한 더 강력하고 원칙적인 방어 전략 (Robust Alignment) 의 개발이 시급함을 강조합니다.
레드 테이밍 도구: TAO-Attack 은 시스템의 취약점을 발견하고 견고한 AI 를 구축하기 위한 효과적인 레드 테이밍 도구로 활용될 수 있습니다.

결론적으로, 이 논문은 LLM 보안 분야에서 최적화 기반 공격의 새로운 기준을 제시하며, 향후 더 안전한 AI 시스템 개발을 위한 중요한 통찰을 제공합니다.