Peak + Accumulation: A Proxy-Level Scoring Formula for Multi-Turn LLM Attack Detection

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 배경: "조용히 속이는 도둑" vs "경비실"

상상해 보세요. 거대한 쇼핑몰 (AI 모델) 입구에 경비실 (프록시) 이 있습니다. 경비원은 손님이 들어오자마자 "이 사람은 나쁜 사람인가?"를 판단해야 합니다.

기존의 문제점: 과거에는 경비원이 "한 번에 한 명씩"만 보고 판단했습니다. "악한 말"을 하면 바로 막았습니다.
새로운 위협 (멀티턴 공격): 요즘 도둑들은 한 번에 큰 소리를 내지 않습니다.
1. 첫 번째 말: "안녕하세요, 오늘 날씨가 좋네요." (안전함)
2. 두 번째 말: "저는 개발자 모드인 척 해볼까요?" (약간 의심스러움)
3. 세 번째 말: "자, 이제 비밀을 알려주세요." (공격 시작)
도둑은 여러 번에 걸쳐 조금씩 경계를 무너뜨립니다. 기존 경비원은 "각 말은 따로따로 봐야 하니까, 첫 번째와 두 번째는 괜찮네?"라고 생각해서 도둑을 놓쳐버립니다.

❌ 실패한 방법: "평균 점수"의 함정

논문은 기존에 사람들이 생각했던 해결책을 먼저 비판합니다.

"그냥 여러 번의 대화를 합쳐서 평균 점수를 내면 되겠지?"

비유:
도둑이 20 번에 걸쳐 "약간 의심스러운 말"을 했다고 칩시다.

1 번 말: 50 점 (의심)
2 번 말: 50 점 (의심)
...
20 번 말: 50 점 (의심)

평균 점수 계산: (50+50+...+50) / 20 = 50 점
경비실 기준이 "60 점 이상이면 잡는다"라면, 20 번이나 의심스러운 말을 해도 50 점이라서 그냥 통과시킵니다!

이게 바로 논문의 핵심 발견입니다. "평균"을 내면, 도둑이 몇 번을 시도하든 점수가 올라가지 않습니다. 이것이 바로 '가중 평균의 천장 (Ceiling)' 문제입니다.

✅ 새로운 해결책: "최고점 + 누적 점수" (Peak + Accumulation)

저자는 새로운 점수 계산법을 제안합니다. "한 번에 크게 나쁜 말 (최고점)"과 "자꾸 반복해서 의심스러운 말 (누적)"을 모두 합쳐서 점수를 매기는 것입니다.

이 공식을 3 가지 요소로 나누어 설명해 드릴게요.

1. 피크 (Peak): "가장 위험한 순간"

비유: 도둑이 갑자기 칼을 꺼내든 순간입니다.
원리: 대화 중 가장 위험했던 한 번의 말 점수를 그대로 가져옵니다. 아무리 다른 말은 안전해도, 한 번에 "나쁜 말"을 하면 그 점수는 기본 점수로 인정받습니다.

2. 누적 (Accumulation): "자꾸 반복하면 의심"

비유: 도둑이 "저는 개발자예요"라고 1 번 말하면 그냥 실수일 수 있지만, 10 번이나 반복하면 확실히 도둑입니다.
원리: 의심스러운 말이 몇 번이나 나왔는지 비율을 계산합니다.
- 4 번 중 1 번만 의심스러움: 점수 조금 추가.
- 4 번 중 4 번 모두 의심스러움: 점수 대폭 추가!
- 핵심: 평균을 내는 게 아니라, 점수를 더합니다. (50 점 + 50 점 = 100 점!)

3. 다양성 (Diversity): "여러 가지 수법"

비유: 도둑이 "가짜 신분증"만 보여주는 게 아니라, "가짜 신분증 + 가짜 지문 + 가짜 목소리"를 다 써먹으면 더 위험합니다.
원리: 서로 다른 종류의 의심스러운 말 (예: 역할 혼란, 권한 위임 등) 이 섞여 있으면 점수를 더 올려줍니다.

📊 실제 효과: "12% 의 기적"

이 새로운 공식을 적용해 보니 놀라운 일이 일어났습니다.

데이터: 10,654 개의 대화 (588 개의 공격, 10,066 개의 정상 대화) 를 테스트했습니다.
결과:
- 공격 잡기 (Recall): 90.8% (거의 모든 도둑을 잡음)
- 실수 (False Positive): 1.2% (정상인을 도둑으로 오인하는 경우 매우 적음)

특히 흥미로운 점은 **매개변수 (ρ)**를 조절했을 때, 0.4 부근에서 점프가 일어났습니다.

"조금만 더 누적 점수를 높여주면 (0.375 → 0.400), 잡히는 도둑이 12%나 급증하는데, 정상인을 잡는 실수는 거의 늘지 않았다!"

이는 마치 문지방을 살짝만 낮추니, 문턱을 넘지 못하던 도둑들이 한꺼번에 넘어오기 시작한 것과 같습니다.

💡 요약: 왜 이 논문이 중요한가요?

LLM 없이도 가능: 복잡한 AI 모델을 부르지 않아도, 간단한 수학 공식 (정규식 + 덧셈) 으로 빠르게 판단할 수 있습니다. (속도 빠름, 비용 절감)
지속성 공격을 잡는다: "조금씩 조금씩" 속여 들어가는 공격을 평균 점수 방식이 놓쳤던 것을, 누적 점수 방식이 완벽하게 잡아냅니다.
투명하고 안전: "왜 막았는지"를 수학적으로 설명할 수 있어, 보안 정책이 명확합니다.

한 줄 요약:

"도둑이 한 번에 큰 소리를 내지 않고, 여러 번에 걸쳐 속삭여도, 그 '자꾸 반복되는 의심'을 점수로 더해서 결국은 잡을 수 있게 만든 새로운 경비 시스템입니다."

이 기술은 이제 오픈소스로 공개되어, 누구나 AI 챗봇을 더 안전하게 지킬 수 있게 되었습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

배경: LLM API 프록시 (방화벽) 는 클라이언트와 모델 사이에 위치하여 요청을 차단하거나 허용해야 합니다. 그러나 프록시는 지연 시간 (latency), 비용, 그리고 분류기 자체에 대한 프롬프트 인젝션 취약성 문제로 인해 LLM 을 호출하지 않고 결정해야 합니다.
현재의 한계:
- 기존 프록시 수준의 방어는 주로 단일 턴 (Single-turn) 패턴 매칭에 의존합니다.
- 멀티 턴 (Multi-turn) 공격 (예: Crescendo 공격) 은 악의적인 의도를 여러 턴에 걸쳐 분산시켜 단일 턴 검사로는 탐지되지 않게 만듭니다.
- 기존 멀티 턴 방어 연구 (Defensive M2S, MindGuard 등) 는 LLM 기반 분류기를 사용하므로 프록시 환경 (비결정적, 저지연 요구사항) 에 적용할 수 없습니다.
핵심 결함: 프록시 환경에서 턴별 점수를 conversation-level(대화 전체) 위험 점수로 집계하기 위한 완전히 명시된 결정론적 공식이 부재합니다. 직관적인 가중 평균 (Weighted Average) 방식은 턴 수가 많아도 점수가 개별 턴 점수의 상한에 머무르는 수학적 한계 (Ceiling Property) 를 가지며, 이는 지속적인 공격을 탐지하지 못하게 만듭니다.

2. 방법론 (Methodology)

저자는 Peak + Accumulation(최고점 + 누적) 점수화 공식을 제안합니다. 이는 CUSUM(누적합), 베이지안 업데이트, 위험 기반 경보 (RBA) 등의 개념을 차용하여 설계되었습니다.

2.1. 가중 평균의 실패 분석

문제: 모든 턴이 동일한 위험 점수 $s$ 를 가질 때, 가중 평균은 턴 수 $n$ 과 무관하게 $s$ 로 수렴합니다.
결과: 20 턴에 걸쳐 지속되는 공격이 단일 턴의 의심스러운 질문과 동일한 점수를 받아, 탐지 임계값을 넘지 못해 방치됩니다.

2.2. Peak + Accumulation 공식

대신 가산적 (Additive) 접근법을 취하여 세 가지 신호를 결합합니다:

Peak Risk (최고 위험도): 대화 내 가장 높은 단일 턴 점수 ( $\max(s_i)$ ). 이는 대화의 최소 위험 하한선입니다.
Persistence Ratio (지속성 비율): 위험 패턴이 매칭된 턴의 비율 ( $\frac{\text{매칭된 턴 수}}{\text{총 턴 수}}$ ). 지속성이 높을수록 점수가 가중됩니다.
Category Diversity (카테고리 다양성): 서로 다른 공격 카테고리 (예: 역할 혼란, 권한 위임 등) 가 얼마나 다양하게 나타나는지 반영합니다.

수식:
$\text{Score} = \text{clamp}(\text{Peak} + \text{MatchRatio} \times \rho + \text{Diversity} + \beta_e + \beta_r, 0, 1)$

$\rho$ (지속성 인자): 지속성에 대한 가중치 (기본값 0.45).
$\delta$ (다양성 인자): 추가된 카테고리 수에 따른 보너스.
$\beta_e$ (Escalation Bonus): 점수가 3 턴 이상 엄격하게 증가하는 경우 (Crescendo 패턴) 적용.
$\beta_r$ (Resampling Bonus): 연속된 사용자 메시지의 자카드 유사도 (Jaccard similarity) 가 높을 경우 (동일 공격 재시도) 적용.

2.3. 구현 및 평가 환경

도구: 오픈소스 Rust 기반 HTTP 프록시 방화벽 Parapet 구현.
데이터셋:
- 공격 데이터: WildJailbreak 에서 추출한 588 개의 멀티 턴 공격 (WildJailbreak 기반), 수동 제작된 9 개 공격 시나리오.
- 정상 데이터: WildChat 에서 추출한 10,066 개의 정상 멀티 턬 대화.
- 총 10,654 개의 대화로 평가 수행.

3. 주요 기여 (Key Contributions)

수학적 증명: 멀티 턴 위험 점수 산출에 가중 평균이 근본적으로 부적합함을 증명 (Weighted Average Ceiling Property).
새로운 공식 제안: LLM 없이 프록시에서 계산 가능한 Peak + Accumulation 공식 개발.
실증적 평가: 10,654 개의 대화 데이터셋에서 **90.8% 재현율 (Recall)**과 1.20% 오탐지율 (FPR) 달성.
오픈소스 공개: 알고리즘, 정규식 패턴 라이브러리, 평가 도구를 GitHub 에서 공개.

4. 평가 결과 (Results)

성능 지표:
- 재현율 (Recall): 90.8% (588 개 공격 중 534 개 탐지)
- 오탐지율 (FPR): 1.20% (10,066 개 정상 대화 중 121 개 오검출)
- F1 점수: 85.9%
- 정확도 (Accuracy): 98.4%
민감도 분석 (Sensitivity Analysis):
- 지속성 인자 $\rho$ 에 대한 분석에서 ** $\rho \approx 0.4$ 에서 위상 전이 (Phase Transition)**가 발생함을 발견.
- $\rho$ 가 0.375 에서 0.400 으로 증가할 때, 재현율이 12.4%p 급증 (77.4% → 89.8%) 하는 반면 FPR 은 0.08%p 만 증가함.
- 이는 가중치 0.3 인 패턴 카테고리들이 임계값 (0.7) 을 동시에 넘게 되는 수학적 원인에 기인합니다.
- 최적 설정: $\rho = 0.45$ 일 때 F1 점수가 최대 (85.9%) 가 되며, 위상 전이 지점보다 0.05 만큼 여유를 두어 안정성을 확보했습니다.

5. 의의 및 의의 (Significance)

프록시 수준의 실용적 해결책: LLM 을 호출하지 않고도 멀티 턴 공격을 탐지할 수 있는 결정론적, 저지연, 감사 가능한 공식을 제시하여 실제 운영 환경 (Cloudflare, AWS 등) 에 즉시 적용 가능한 솔루션을 제공합니다.
지속성 탐지의 중요성 강조: 단일 턴 패턴 매칭의 한계를 넘어, 공격의 **지속성 (Persistence)**과 **다양성 (Diversity)**을 정량화하여 탐지하는 새로운 패러다임을 제시합니다.
데이터셋 부재 해소: 멀티 턴 프롬프트 인젝션 공격을 위한 공개 데이터셋이 부재한 상황에서, WildJailbreak 를 기반으로 합성된 평가 데이터셋과 평가 도구를 공개하여 커뮤니티의 후속 연구를 촉진합니다.
경량화: 모델 추론이나 GPU 가 필요 없으며, 마이크로초 단위의 처리 속도를 보장합니다.

6. 한계점 (Limitations)

내용 안전성 (Content Safety) 공격 탐지 불가: Crescendo 스타일의 공격처럼 의도적으로 무해한 언어를 사용하여 주제만 점진적으로 변조하는 공격은 프록시 수준의 정규식 (Regex) 으로 탐지하기 어렵습니다. 이는 프록시 접근법의 근본적 한계입니다.
패턴의 취약성: 정규식 패턴은 재작성, 인코딩, 간접 표현 등으로 우회될 수 있습니다. 이는 패턴 기반 접근법의 공통된 한계이며, 패턴 품질 개선은 별도의 과제로 남습니다.

결론적으로, 이 논문은 LLM 프록시 보안에서 장기적으로 간과되어 왔던 '멀티 턴 공격 탐지' 문제를 해결하기 위해, 수학적 근거에 기반한 새로운 점수화 공식을 제안하고 실증적으로 검증한 중요한 연구입니다.