BinaryShield: Cross-Service Threat Intelligence in LLM Services using Privacy-Preserving Fingerprints

BinaryShield 는 PII 제거, 시맨틱 임베딩, 이진 양자화 및 무작위 응답 메커니즘을 결합하여 개인정보 보호 규제를 준수하면서 LLM 서비스 간에 프롬프트 주입 공격 지문을 안전하게 공유할 수 있는 최초의 프라이버시 보호형 위협 인텔리전스 시스템입니다.

Waris Gill, Natalie Isak, Matthew Dressman

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🏢 배경: 왜 이 시스템이 필요한가요?

1. 문제 상황: "각자 따로 놀고 있는 보안팀"

거대 기업 (예: 마이크로소프트) 은 수많은 AI 서비스 (기업용 비서, 일반 채팅, 코드 작성 도우미 등) 를 운영합니다. 하지만 각 서비스는 개인정보 보호법 (GDPR 등) 때문에 서로의 데이터를 공유할 수 없습니다.

  • 상황: A 서비스에서 "악성 명령어 (프롬프트 인젝션)" 공격을 막아냈습니다.
  • 문제: 하지만 B 서비스는 이 정보를 모릅니다. 그래서 같은 공격이 B 서비스에서도 계속 성공합니다.
  • 비유: 한 동네의 경찰서가 "도둑이 A 가게를 털었다"는 정보를 알았지만, 옆 동네 경찰서나 다른 가게에는 알리지 못해 도둑이 계속 다른 가게를 털어대는 것과 같습니다.

2. 왜 공유를 못 할까요?

공유하려면 사용자가 입력한 원본 텍스트를 보내야 하는데, 여기에는 이름, 전화번호, 주소 같은 **개인정보 (PII)**가 섞여 있을 수 있습니다. 이걸 그대로 보내면 법을 위반하게 됩니다.


🛡️ 해결책: BinaryShield (비밀을 지키는 지문)

BinaryShield 는 "원본 텍스트는 절대 보내지 않으면서, 공격의 특징만 공유하는" 기술을 개발했습니다.

🍎 비유: "사과를 갈아 만든 주스"

  1. 원본 사과 (공격 텍스트): "내 계좌에서 100 만 원을 이체해줘" (여기에는 이름과 계좌번호가 들어있음).

  2. BinaryShield 의 처리 과정:

    • 개인정보 제거 (PII Redaction): "내"를 "[사람]"으로, "100 만 원"을 "[금액]"으로 바꿉니다. -> "[사람] 의 [계좌] 에서 [금액] 을 이체해줘"
    • 의미 추출 (Embedding): 이 문장의 '의미'를 숫자 배열로 변환합니다. (예: [0.1, 0.9, -0.5, ...])
    • 압축 (Binary Quantization): 숫자를 0 과 1 로만 바꿉니다. (예: [0, 1, 0, ...]) -> 이제 원본을 다시 만들기가 매우 어렵습니다.
    • 소음 추가 (Randomized Response): 0 과 1 을 아주 작은 확률로 뒤집습니다. (예: 0 이었던 게 1 이 됨). -> 이제 원본을 100% 복원하는 것은 불가능해집니다.
  3. 결과물 (지문): "이런 패턴의 공격이 있었어!"라는 압축된 0 과 1 의 나열만 다른 서비스로 보냅니다.

🚀 작동 원리

  1. Service A에서 공격을 발견하면, 위 과정을 거쳐 비밀 지문을 만듭니다.
  2. 이 지문을 Service B, C에게 보냅니다.
  3. Service B는 자신의 기록을 검색해 "내게도 비슷한 지문의 공격이 있었나?" 확인합니다.
  4. 만약 비슷하면, "아, 이건 같은 공격군이야!"라고 판단하고 미리 방어합니다.

📊 성능: 정말 잘 작동할까요?

연구팀은 이 시스템이 얼마나 잘 작동하는지 실험했습니다.

  • 정확도: 기존에 쓰이던 보안 기술 (SimHash) 보다 훨씬 정확했습니다. (정확도 94% vs 77%)
    • 비유: 다른 기술은 "비슷한 옷을 입은 도둑"을 놓치는 경우가 많았지만, BinaryShield 는 "걸음걸이와 체형"까지 분석해서 도둑을 찾아냅니다.
  • 속도: 검색 속도가 38 배나 빨라졌습니다.
    • 비유: 기존에는 도서관에서 책을 하나하나 찾아보느라 1 시간 걸렸다면, BinaryShield 는 2 분 만에 찾아냅니다.
  • 저장 공간: 데이터 크기가 32 배 줄어듭니다.
    • 비유: 무거운 책상 (원본 데이터) 을 접어서 작은 우편함 (Binary 지문) 에 넣은 것과 같습니다.

💡 핵심 요약

  1. 문제: AI 서비스들은 서로 데이터를 공유하지 못해 보안 사각지대가 생깁니다.
  2. 해결: BinaryShield는 원본 텍스트를 보내지 않고, **개인정보를 제거하고 변형시킨 '공격 지문'**만 공유합니다.
  3. 효과:
    • 개인정보 보호: 원본을 복원할 수 없어 법을 위반하지 않습니다.
    • 협동 방어: 한 곳에서 발견된 공격을 모든 서비스가 즉시 막을 수 있습니다.
    • 효율성: 검색 속도가 매우 빠르고 저장 공간도 적게 듭니다.

이 기술은 마치 **"도둑의 지문만 공유해서 전 세계 경찰이 협력하는 시스템"**을 만드는 것과 같습니다. 앞으로 AI 가 더 중요해질수록, 이런 '비밀을 지키는 협력'이 필수적이 될 것입니다.