BinaryShield: Cross-Service Threat Intelligence in LLM Services using Privacy-Preserving Fingerprints

Each language version is independently generated for its own context, not a direct translation.

🏢 배경: 왜 이 시스템이 필요한가요?

1. 문제 상황: "각자 따로 놀고 있는 보안팀"

거대 기업 (예: 마이크로소프트) 은 수많은 AI 서비스 (기업용 비서, 일반 채팅, 코드 작성 도우미 등) 를 운영합니다. 하지만 각 서비스는 개인정보 보호법 (GDPR 등) 때문에 서로의 데이터를 공유할 수 없습니다.

상황: A 서비스에서 "악성 명령어 (프롬프트 인젝션)" 공격을 막아냈습니다.
문제: 하지만 B 서비스는 이 정보를 모릅니다. 그래서 같은 공격이 B 서비스에서도 계속 성공합니다.
비유: 한 동네의 경찰서가 "도둑이 A 가게를 털었다"는 정보를 알았지만, 옆 동네 경찰서나 다른 가게에는 알리지 못해 도둑이 계속 다른 가게를 털어대는 것과 같습니다.

2. 왜 공유를 못 할까요?

공유하려면 사용자가 입력한 원본 텍스트를 보내야 하는데, 여기에는 이름, 전화번호, 주소 같은 **개인정보 (PII)**가 섞여 있을 수 있습니다. 이걸 그대로 보내면 법을 위반하게 됩니다.

🛡️ 해결책: BinaryShield (비밀을 지키는 지문)

BinaryShield 는 "원본 텍스트는 절대 보내지 않으면서, 공격의 특징만 공유하는" 기술을 개발했습니다.

🍎 비유: "사과를 갈아 만든 주스"

원본 사과 (공격 텍스트): "내 계좌에서 100 만 원을 이체해줘" (여기에는 이름과 계좌번호가 들어있음).
BinaryShield 의 처리 과정:
- 개인정보 제거 (PII Redaction): "내"를 "[사람]"으로, "100 만 원"을 "[금액]"으로 바꿉니다. -> "[사람] 의 [계좌] 에서 [금액] 을 이체해줘"
- 의미 추출 (Embedding): 이 문장의 '의미'를 숫자 배열로 변환합니다. (예: [0.1, 0.9, -0.5, ...])
- 압축 (Binary Quantization): 숫자를 0 과 1 로만 바꿉니다. (예: [0, 1, 0, ...]) -> 이제 원본을 다시 만들기가 매우 어렵습니다.
- 소음 추가 (Randomized Response): 0 과 1 을 아주 작은 확률로 뒤집습니다. (예: 0 이었던 게 1 이 됨). -> 이제 원본을 100% 복원하는 것은 불가능해집니다.
결과물 (지문): "이런 패턴의 공격이 있었어!"라는 압축된 0 과 1 의 나열만 다른 서비스로 보냅니다.

🚀 작동 원리

Service A에서 공격을 발견하면, 위 과정을 거쳐 비밀 지문을 만듭니다.
이 지문을 Service B, C에게 보냅니다.
Service B는 자신의 기록을 검색해 "내게도 비슷한 지문의 공격이 있었나?" 확인합니다.
만약 비슷하면, "아, 이건 같은 공격군이야!"라고 판단하고 미리 방어합니다.

📊 성능: 정말 잘 작동할까요?

연구팀은 이 시스템이 얼마나 잘 작동하는지 실험했습니다.

정확도: 기존에 쓰이던 보안 기술 (SimHash) 보다 훨씬 정확했습니다. (정확도 94% vs 77%)
- 비유: 다른 기술은 "비슷한 옷을 입은 도둑"을 놓치는 경우가 많았지만, BinaryShield 는 "걸음걸이와 체형"까지 분석해서 도둑을 찾아냅니다.
속도: 검색 속도가 38 배나 빨라졌습니다.
- 비유: 기존에는 도서관에서 책을 하나하나 찾아보느라 1 시간 걸렸다면, BinaryShield 는 2 분 만에 찾아냅니다.
저장 공간: 데이터 크기가 32 배 줄어듭니다.
- 비유: 무거운 책상 (원본 데이터) 을 접어서 작은 우편함 (Binary 지문) 에 넣은 것과 같습니다.

💡 핵심 요약

문제: AI 서비스들은 서로 데이터를 공유하지 못해 보안 사각지대가 생깁니다.
해결: BinaryShield는 원본 텍스트를 보내지 않고, **개인정보를 제거하고 변형시킨 '공격 지문'**만 공유합니다.
효과:
- 개인정보 보호: 원본을 복원할 수 없어 법을 위반하지 않습니다.
- 협동 방어: 한 곳에서 발견된 공격을 모든 서비스가 즉시 막을 수 있습니다.
- 효율성: 검색 속도가 매우 빠르고 저장 공간도 적게 듭니다.

이 기술은 마치 **"도둑의 지문만 공유해서 전 세계 경찰이 협력하는 시스템"**을 만드는 것과 같습니다. 앞으로 AI 가 더 중요해질수록, 이런 '비밀을 지키는 협력'이 필수적이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

배경: 기업 환경에서 대규모 언어 모델 (LLM) 서비스 (예: 엔터프라이즈 AI 어시스턴트, 소비자 채팅, API 서비스 등) 가 광범위하게 배포되고 있으며, 매일 수십억 개의 쿼리를 처리하고 있습니다.
핵심 문제:
- 규제 장벽으로 인한 보안 사각지대: 각 서비스는 GDPR, HIPAA 등 엄격한 개인정보 보호 규정과 내부 데이터 거버넌스 정책으로 인해 서로 격리 (Siloed) 되어 운영됩니다. 이로 인해 한 서비스에서 탐지된 프롬프트 인젝션 (Prompt Injection) 공격에 대한 위협 인텔리전스를 다른 서비스와 공유할 수 없습니다.
- 분산된 방어 체계: 한 서비스에서 새로운 공격 벡터가 발견되어 패치되더라도, 동일한 공격이 다른 서비스에서는 수개월간 탐지되지 않고 지속될 수 있습니다.
- 기존 방어 한계: 프롬프트 인젝션은 LLM 의 가장 큰 보안 위협 (OWASP Top 10) 이지만, 기존 방어 메커니즘은 각 서비스 내에서만 작동하며, 사용자 프롬프트를 공유할 수 없어 조직 전체적인 위협 조사가 불가능합니다.
목표: 개인정보 보호 규정을 위반하지 않으면서도, 서로 다른 규제 경계 (Compliance Boundaries) 를 가진 LLM 서비스 간에 프롬프트 인젝션 공격에 대한 위협 인텔리전스를 안전하게 공유할 수 있는 메커니즘이 필요합니다.

2. 제안 방법론: BinaryShield

BinaryShield 는 프롬프트 인젝션 공격의 '지문 (Fingerprint)'을 생성하여 공유하는 최초의 개인정보 보호형 위협 인텔리전스 시스템입니다. 원본 프롬프트를 복구할 수 없도록 하되, 공격 패턴의 의미적 (Semantic) 특성은 유지하는 4 단계 파이프라인을 사용합니다.

A. 핵심 아키텍처 및 프로세스

PII 제거 (PII Redaction):
- 탐지된 의심스러운 프롬프트에서 개인 식별 정보 (PII: 이름, 주민등록번호, 이메일 등) 를 자동으로 식별하고 일반화된 플레이스홀더로 대체합니다.
- 이는 사용자 프라이버시를 보호하면서도 공격의 문법적/구조적 패턴을 유지합니다.
의미적 임베딩 생성 (Semantic Embedding):
- PII 가 제거된 텍스트를 고차원의 밀집 벡터 (Dense Vector) 로 변환합니다.
- 최신 임베딩 모델 (ModernBert, OpenAI 모델 등) 을 사용하여 표면적인 단어 변화가 아닌, 공격의 의도와 의미적 핵심을 포착합니다.
이진 양자화 (Binary Quantization):
- 부동 소수점 (Float) 임베딩 벡터를 이진 벡터로 변환합니다.
- 방식: 각 차원의 값이 양수이면 1, 음수이면 0 으로 매핑 (Sign-based quantization).
- 효과:
  - 저장 효율성: 32 비트 (float32) 를 1 비트로 축소하여 저장 공간을 32 배 줄입니다.
  - 보안 강화: 크기 (Magnitude) 정보를 제거하고 방향성 정보만 남기므로 원본 텍스트 복원이 기하급수적으로 어려워집니다.
무작위 응답 메커니즘 (Randomized Response / Differential Privacy):
- 국소적 차분 프라이버시 (Local DP) 적용: 이진 벡터의 각 비트를 특정 확률 ( $p$ ) 로 유지하거나 반전 (Flip) 시킵니다.
- 매개변수 ( $\alpha$ ): 프라이버시 예산 (Privacy Budget) 을 조절합니다. $\alpha$ 가 낮을수록 더 많은 노이즈 (비트 반전) 가 추가되어 프라이버시는 강화되지만 유틸리티는 감소합니다.
- 목적: 원본 프롬프트를 역추적하는 것을 수학적으로 불가능하게 만들며, 위장된 지문을 통해만 유사도 검색이 가능하도록 합니다.

B. 위협 상관관계 (Threat Correlation)

생성된 이진 지문 (Binary Fingerprint) 은 다른 서비스로 브로드캐스트됩니다.
수신된 서비스는 자신의 로그에서 해밍 거리 (Hamming Distance) 를 계산하여 유사한 공격 패턴을 검색합니다.
매칭된 경우, 해당 서비스는 경고를 발령하거나 방어 정책을 업데이트합니다.

3. 주요 기여 (Key Contributions)

최초의 프라이버시 보호형 프롬프트 지문 기술: 규제 경계를 초월하여 LLM 서비스 간에 프롬프트 인젝션 위협 정보를 안전하게 공유할 수 있는 첫 번째 시스템인 BinaryShield 를 제안했습니다.
새로운 파이프라인 설계: PII 제거, 의미 임베딩, 이진 양자화, 차분 프라이버시를 결합하여 공격 패턴은 보존하되 원본 데이터는 보호하는 혁신적인 아키텍처를 제시했습니다.
실용적인 확장성: 밀집 임베딩 (Dense Embedding) 대비 38 배 빠른 검색 속도와 32 배의 저장 공간 절감을 실현하여 대규모 기업 환경에서의 실시간 적용을 가능하게 했습니다.

4. 평가 결과 (Evaluation Results)

논문은 SimHash(기존 프라이버시 보호 기반) 및 비개인정보 보호 밀집 임베딩과 비교하여 BinaryShield 를 평가했습니다.

탐지 정확도 (F1-Score):
- 복잡한 재문장 (Paraphrasing) 공격: BinaryShield 는 F1-Score 0.94를 기록하여, SimHash 의 0.77보다 17 포인트 이상 우월한 성능을 보였습니다. 이는 의미적 유사성을 잘 포착함을 의미합니다.
- 단어 교체 공격: 단순한 단어 교체 (V-1~V-20) 에서는 SimHash 와 유사하거나 더 높은 성능을 보였습니다.
프라이버시 - 유틸리티 트레이드오프:
- 프라이버시 예산 ( $\alpha$ ) 을 조절하여 성능을 제어할 수 있음을 입증했습니다. $\alpha=2.0$ 설정 시, 비개인정보 보호 밀집 임베딩의 정확도 대비 약 93% 수준의 정확도를 유지하면서도 강력한 프라이버시를 보장했습니다.
확장성 및 효율성:
- 검색 속도: 10 만 건의 코퍼스 (Corpus) 에서 밀집 임베딩은 14.52 초가 소요된 반면, BinaryShield 는 0.38 초로 38 배 빠른 검색을 달성했습니다.
- 저장 공간: 밀집 임베딩 대비 저장 공간이 크게 줄어들어, 상용 서버의 메모리 내에서 대규모 위협 인텔리전스 데이터를 처리할 수 있게 되었습니다.

5. 의의 및 결론 (Significance & Conclusion)

협력적 방어 체계 구축: BinaryShield 는 전통적인 악성코드 시그니처 공유 생태계 (Antivirus) 를 LLM 보안 영역으로 확장한 것입니다. 조직 내 여러 LLM 서비스가 서로 격리되어 있더라도, 프라이버시를 침해하지 않고 집단 지성을 통해 위협에 대응할 수 있는 토대를 마련했습니다.
규제 준수와 보안의 균형: GDPR, HIPAA 등 엄격한 규제 하에서도 기업은 내부적으로 위협 정보를 공유하고 패치를 신속하게 배포할 수 있게 되었습니다.
미래 지향성: 자율 에이전트와 MCP(Model Context Protocol) 의 등장으로 프롬프트 인젝션의 위험이 코드 실행 및 시스템 장악으로 확대될 수 있는 상황에서, BinaryShield 는 이러한 진화하는 위협에 대응하는 협력적 방어의 핵심 인프라가 될 것으로 기대됩니다.

요약: BinaryShield 는 LLM 서비스 간의 보안 사각지대를 해소하기 위해, 개인정보 보호 기술 (차분 프라이버시, 이진 양자화) 을 활용하여 공격의 의미적 지문을 안전하게 공유하는 혁신적인 시스템입니다. 이는 높은 탐지 정확도와 압도적인 성능 효율을 통해 기업 차원의 통합 위협 대응을 가능하게 합니다.