BinaryShield: Cross-Service Threat Intelligence in LLM Services using Privacy-Preserving Fingerprints

BinaryShield is het eerste privacy-bewuste systeem dat organisaties in staat stelt om veilig aanvalsvingerafdrukken voor prompt-injectie over compliance-grenzen heen te delen door gebruik te maken van een unieke pipeline van PII-verwijdering, semantische embedding en binaire kwantisatie, waardoor de detectie van bedreigingen aanzienlijk wordt verbeterd zonder inbreuk te maken op de privacy.

Waris Gill, Natalie Isak, Matthew Dressman

Gepubliceerd 2026-03-03
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

🛡️ BinaryShield: De "Stempel" die Geheimen Bewaart

Stel je voor dat een groot bedrijf (zoals Microsoft) tientallen verschillende digitale diensten heeft. Ze hebben een chatbot voor klanten, een assistent voor werknemers, een coderingshulp voor programmeurs, enzovoort. Elk van deze diensten is als een eigen, afgesloten huis met een eigen slot en eigen regels. Dit is nodig om de privacy van gebruikers te beschermen; wat in het ene huis gebeurt, mag niet zomaar in het andere huis worden gezien.

Het Probleem: De Blinde Vlek
Nu, stel dat een hacker probeert een van deze diensten te misleiden met een slimme, kwaadaardige opdracht (een "prompt injection"). Het is alsof iemand een vals paspoort probeert te gebruiken bij de poort van Huis A. De bewaker van Huis A ziet het en stopt de indringer.

Maar omdat de huizen afgesloten zijn, weet de bewaker van Huis B en Huis C niets van deze poging. De hacker kan dus morgen met hetzelfde valse paspoort (of een licht aangepaste versie) naar Huis B gaan en daar succesvol binnenkomen. De diensten praten niet met elkaar omdat privacywetten zeggen: "Je mag de inhoud van de gesprekken niet delen."

Dit creëert een blinde vlek: de organisatie ziet niet dat er een grootschalig gevaar is, omdat elke dienst alleen kijkt naar wat er bij zichzelf gebeurt.

De Oplossing: BinaryShield
BinaryShield is een slim systeem dat dit probleem oplost zonder de privacy te schenden. Het werkt als een geheime stempel of een vingerafdruk die je kunt delen zonder de persoon te onthullen.

Hier is hoe het werkt, stap voor stap:

  1. Het Verwijderen van Identiteit (PII Redaction):
    Stel, een hacker zegt: "Verplaats $5000 van het rekeningnummer van Jan Jansen."
    BinaryShield pakt deze zin en verwijdert direct alles wat uniek is: de naam "Jan Jansen" en het rekeningnummer worden vervangen door algemene termen zoals [NAAM] en [BEDRAG].

    • Metafoor: Het is alsof je een foto van een verdachte maakt, maar je verft zijn gezicht en tatoeages zwart. Je ziet nog wel dat hij een rode jas draagt en een hoed opheeft, maar je weet niet wie hij is.
  2. De Vertaling naar Betekenis (Semantic Embedding):
    Het systeem kijkt nu naar de betekenis van de zin, niet naar de woorden. Het zet de zin om in een complexe "smaakprofiel" (een wiskundige vector).

    • Metafoor: In plaats van de woorden te onthouden, onthoudt het systeem de "smaak" van de zin. Of het nu "Verplaats geld" of "Stuur geld" is, de smaak is hetzelfde: geld overmaken.
  3. Het Inpakken in een Doosje (Binary Quantization):
    Die complexe smaakprofielen zijn groot en zwaar om te sturen. BinaryShield knijpt ze samen tot een heel simpel rijtje van nullen en enen (0 en 1).

    • Metafoor: Het is alsof je een zware, dure vaas (de originele data) vervangt door een lichtgewicht, platte tekening van de vaas. Je ziet nog wel de vorm, maar de vaas is nu klein en makkelijk te vervoeren.
  4. Het Voegen van Ruis (Randomized Response):
    Dit is de magische stap voor privacy. Het systeem gooit een paar willekeurige "foutjes" in het rijtje van nullen en enen. Het draait soms een 0 om naar een 1, en andersom, met een specifieke kans.

    • Metafoor: Stel je voor dat je een tekening van de vaas maakt, maar je laat er een paar druppels regen op vallen die een paar lijntjes veranderen. Als iemand anders de tekening ziet, kan hij de originele vaas niet meer precies reconstrueren, maar hij kan wel zien: "Ah, dit is nog steeds een vaas, en het lijkt op die andere vaas die ik gisteren zag."

Het Resultaat: Samenwerken zonder Spioneren
Nu kan Huis A deze "ruis-rijtjes" (de vingerafdrukken) delen met Huis B en C.

  • Als Huis B een nieuwe aanvraag krijgt, vergelijkt het zijn eigen rijtje met die van Huis A.
  • Als de rijtjes lijken (bijvoorbeeld door de Hamming-afstand te meten), weet Huis B: "Oeps, dit is dezelfde soort aanval die we gisteren zagen!"
  • Ze kunnen dan hun poorten sluiten voordat de hacker toeslaat.

Waarom is dit zo goed?

  • Privacy: Omdat de originele tekst onherkenbaar is gemaakt en er "ruis" aan is toegevoegd, kan niemand de oorspronkelijke zin van de gebruiker reconstrueren. Geen enkele wet wordt overtreden.
  • Snelheid: Het vergelijken van rijtjes met nullen en enen is extreem snel (38 keer sneller dan het vergelijken van de zware originele data).
  • Effectiviteit: Het systeem is zo slim dat het zelfs herkent als een hacker de woorden verandert (bijvoorbeeld "geef geld" in plaats van "verplaats geld"). Het ziet de intentie, niet alleen de woorden.

Conclusie
BinaryShield is als een geheime taal die alle diensten van een bedrijf met elkaar laat praten over hackers, zonder dat ze ooit hoeven te vertellen wat de gebruikers precies hebben gezegd. Het maakt de hele organisatie veiliger, terwijl de privacy van de individuele gebruiker volledig gewaarborgd blijft. Het is een win-win: de hackers verliezen hun verborgenheid, en de gebruikers houden hun geheimen.