BinaryShield: Cross-Service Threat Intelligence in LLM Services using Privacy-Preserving Fingerprints

Each language version is independently generated for its own context, not a direct translation.

🛡️ BinaryShield: De "Stempel" die Geheimen Bewaart

Stel je voor dat een groot bedrijf (zoals Microsoft) tientallen verschillende digitale diensten heeft. Ze hebben een chatbot voor klanten, een assistent voor werknemers, een coderingshulp voor programmeurs, enzovoort. Elk van deze diensten is als een eigen, afgesloten huis met een eigen slot en eigen regels. Dit is nodig om de privacy van gebruikers te beschermen; wat in het ene huis gebeurt, mag niet zomaar in het andere huis worden gezien.

Het Probleem: De Blinde Vlek
Nu, stel dat een hacker probeert een van deze diensten te misleiden met een slimme, kwaadaardige opdracht (een "prompt injection"). Het is alsof iemand een vals paspoort probeert te gebruiken bij de poort van Huis A. De bewaker van Huis A ziet het en stopt de indringer.

Maar omdat de huizen afgesloten zijn, weet de bewaker van Huis B en Huis C niets van deze poging. De hacker kan dus morgen met hetzelfde valse paspoort (of een licht aangepaste versie) naar Huis B gaan en daar succesvol binnenkomen. De diensten praten niet met elkaar omdat privacywetten zeggen: "Je mag de inhoud van de gesprekken niet delen."

Dit creëert een blinde vlek: de organisatie ziet niet dat er een grootschalig gevaar is, omdat elke dienst alleen kijkt naar wat er bij zichzelf gebeurt.

De Oplossing: BinaryShield
BinaryShield is een slim systeem dat dit probleem oplost zonder de privacy te schenden. Het werkt als een geheime stempel of een vingerafdruk die je kunt delen zonder de persoon te onthullen.

Hier is hoe het werkt, stap voor stap:

Het Verwijderen van Identiteit (PII Redaction):
Stel, een hacker zegt: "Verplaats $5000 van het rekeningnummer van Jan Jansen."
BinaryShield pakt deze zin en verwijdert direct alles wat uniek is: de naam "Jan Jansen" en het rekeningnummer worden vervangen door algemene termen zoals [NAAM] en [BEDRAG].
- Metafoor: Het is alsof je een foto van een verdachte maakt, maar je verft zijn gezicht en tatoeages zwart. Je ziet nog wel dat hij een rode jas draagt en een hoed opheeft, maar je weet niet wie hij is.
De Vertaling naar Betekenis (Semantic Embedding):
Het systeem kijkt nu naar de betekenis van de zin, niet naar de woorden. Het zet de zin om in een complexe "smaakprofiel" (een wiskundige vector).
- Metafoor: In plaats van de woorden te onthouden, onthoudt het systeem de "smaak" van de zin. Of het nu "Verplaats geld" of "Stuur geld" is, de smaak is hetzelfde: geld overmaken.
Het Inpakken in een Doosje (Binary Quantization):
Die complexe smaakprofielen zijn groot en zwaar om te sturen. BinaryShield knijpt ze samen tot een heel simpel rijtje van nullen en enen (0 en 1).
- Metafoor: Het is alsof je een zware, dure vaas (de originele data) vervangt door een lichtgewicht, platte tekening van de vaas. Je ziet nog wel de vorm, maar de vaas is nu klein en makkelijk te vervoeren.
Het Voegen van Ruis (Randomized Response):
Dit is de magische stap voor privacy. Het systeem gooit een paar willekeurige "foutjes" in het rijtje van nullen en enen. Het draait soms een 0 om naar een 1, en andersom, met een specifieke kans.
- Metafoor: Stel je voor dat je een tekening van de vaas maakt, maar je laat er een paar druppels regen op vallen die een paar lijntjes veranderen. Als iemand anders de tekening ziet, kan hij de originele vaas niet meer precies reconstrueren, maar hij kan wel zien: "Ah, dit is nog steeds een vaas, en het lijkt op die andere vaas die ik gisteren zag."

Het Resultaat: Samenwerken zonder Spioneren
Nu kan Huis A deze "ruis-rijtjes" (de vingerafdrukken) delen met Huis B en C.

Als Huis B een nieuwe aanvraag krijgt, vergelijkt het zijn eigen rijtje met die van Huis A.
Als de rijtjes lijken (bijvoorbeeld door de Hamming-afstand te meten), weet Huis B: "Oeps, dit is dezelfde soort aanval die we gisteren zagen!"
Ze kunnen dan hun poorten sluiten voordat de hacker toeslaat.

Waarom is dit zo goed?

Privacy: Omdat de originele tekst onherkenbaar is gemaakt en er "ruis" aan is toegevoegd, kan niemand de oorspronkelijke zin van de gebruiker reconstrueren. Geen enkele wet wordt overtreden.
Snelheid: Het vergelijken van rijtjes met nullen en enen is extreem snel (38 keer sneller dan het vergelijken van de zware originele data).
Effectiviteit: Het systeem is zo slim dat het zelfs herkent als een hacker de woorden verandert (bijvoorbeeld "geef geld" in plaats van "verplaats geld"). Het ziet de intentie, niet alleen de woorden.

Conclusie
BinaryShield is als een geheime taal die alle diensten van een bedrijf met elkaar laat praten over hackers, zonder dat ze ooit hoeven te vertellen wat de gebruikers precies hebben gezegd. Het maakt de hele organisatie veiliger, terwijl de privacy van de individuele gebruiker volledig gewaarborgd blijft. Het is een win-win: de hackers verliezen hun verborgenheid, en de gebruikers houden hun geheimen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

De snelle adoptie van Large Language Models (LLM's) in enterprise-diensten heeft een kritieke veiligheidsblinde vlek gecreëerd. Organisaties draaien vaak meerdere, logisch geïsoleerde LLM-diensten (bijvoorbeeld voor zakelijke assistenten, consumentenchats en ontwikkelaarsagents) die dagelijks miljarden queries verwerken. Hoewel deze diensten strikte compliance-grenzen hebben om gebruikersprivacy te waarborgen (onder andere door GDPR en HIPAA), leidt deze isolatie tot een gefragmenteerde beveiligingspostuur.

Het kernprobleem is dat prompt-injectie-aanvallen (de top-risico voor LLM's volgens OWASP) niet effectief kunnen worden gedeeld tussen deze diensten. Als een aanval wordt gedetecteerd in dienst A, kan dezelfde dreiging maandenlang onopgemerkt blijven in dienst B, omdat privacyregels het delen van ruwe gebruikersprompts verbieden. Bestaande verdedigingsmechanismen zijn per dienst beperkt en er ontbreekt een privacy-bewuste methode om "vingerafdrukken" van aanvallen te delen, vergelijkbaar met hoe antivirussoftware malware-handtekeningen deelt.

Methodologie: BinaryShield

BinaryShield is het eerste systeem dat privacy-bewuste vingerafdrukken genereert om dreigingsinformatie veilig te delen over compliance-grenzen heen. Het systeem transformeert verdachte prompts via een multi-stap pijplijn die identificeerbare informatie verwijdert terwijl de semantische kern van de aanval behouden blijft voor correlatie.

De pijplijn bestaat uit vier hoofdstappen:

PII-Redactie (Persoonlijk Identificeerbare Informatie):
- Voordat verdere verwerking plaatsvindt, worden gevoelige gegevens (zoals namen, sociale zekerheidsnummers, e-mailadressen) uit de prompt verwijderd en vervangen door generieke placeholders (bijv. [PERSON], [AMOUNT]).
- Dit zorgt ervoor dat de context van de aanval behouden blijft, maar directe identificatie van gebruikers onmogelijk wordt.
Semantische Embedding:
- De geredigeerde tekst wordt omgezet in een hoge-dimensionale semantische vector (embedding) met behulp van state-of-the-art modellen (zoals ModernBert of OpenAI embeddings).
- Dit vangt de betekenis en intentie van de prompt, ongeacht oppervlakkige woordvariaties.
Binaire Quantisatie:
- Om de privacy te vergroten en opslag te reduceren, wordt de continue vector (floats) omgezet in een binaire vector.
- Dit gebeurt door het teken van elke dimensie te nemen: als de waarde $> 0$ is, wordt de bit 1, anders 0.
- Dit resulteert in een 32x reductie in opslag (van 32 bits naar 1 bit per dimensie) en maakt het reconstructie van de oorspronkelijke tekst wiskundig extreem moeilijk, omdat de magnitude-informatie verloren gaat.
Gestochastische Respons (Randomized Response) voor Differentiële Privacy:
- Om een formele privacygarantie te bieden, wordt er lokale differentiele privacy toegepast op de binaire vector.
- Elke bit in de vector wordt met een bepaalde kans $p$ omgekeerd (van 0 naar 1 of vice versa). De kans op behoud van een bit wordt bepaald door de privacy-parameter $\alpha$ : $p = \frac{e^\alpha}{e^\alpha + 1}$ .
- Een lagere $\alpha$ betekent meer ruis (sterkere privacy, lagere bruikbaarheid), terwijl een hogere $\alpha$ meer bruikbaarheid biedt met nog steeds privacy.
- Dit zorgt ervoor dat de originele prompt niet kan worden gereconstrueerd uit de gedeelde vingerafdruk, zelfs niet met aanvullende informatie.

Correlatie:
Wanneer een dienst een aanval detecteert, wordt de gegenereerde binaire vingerafdruk (inclusief niet-gevoelige metadata zoals regio) asynchroon naar andere diensten verspreid. Deze diensten zoeken in hun eigen logs naar vergelijkbare vingerafdrukken met behulp van de Hamming-afstand (aantal bits dat verschilt). Omdat de data binair is, is deze zoekopdracht extreem snel en kan deze op CPU's worden uitgevoerd zonder zware GPU-acceleratie.

Belangrijkste Bijdragen

Eerste Privacy-Bewuste Systeem: BinaryShield is het eerste systeem dat privacy-bewuste vingerafdrukken voor prompt-injectie mogelijk maakt, waardoor diensten kunnen samenwerken zonder privacyregels te schenden.
Innovatieve Pijplijn: Het combineert PII-redactie, semantische embeddings, binaire quantisatie en differentiele privacy in één efficiënt proces.
Efficiëntie: Het systeem reduceert opslagbehoeften drastisch en versnelt zoekopdrachten met een factor 38x ten opzichte van dichte embeddings.
Schaalbaarheid: Het is ontworpen om te werken in enterprise-omgevingen met miljoenen queries per dag.

Resultaten

De evaluatie van BinaryShield toont overtuigende resultaten aan op het gebied van detectie, privacy en efficiëntie:

Detectieprestaties:
- BinaryShield bereikt een F1-score van 0,94 bij het detecteren van complexe paraphrasing-aanvallen.
- Dit is significant beter dan de privacy-bewuste baseline SimHash, die slechts een F1-score van 0,77 haalt (een verschil van 17 punten).
- Het systeem behoudt zelfs bij zware semantische herschrijvingen van prompts een hoge nauwkeurigheid.
Privacy-Utility Trade-off:
- Er is een duidelijke, voorspelbare relatie tussen de privacy-parameter $\alpha$ en de detectienauwkeurigheid.
- Bij een redelijke privacy-instelling ( $\alpha = 2.0$ ) behoudt BinaryShield 93% van de nauwkeurigheid van een niet-privacy-bewuste dichte embedding-baseline, terwijl het toch privacy garandeert.
- De theoretische voorspellingen voor de Hamming-afstand (ruis) komen exact overeen met de empirische metingen.
Efficiëntie en Schaalbaarheid:
- Zoeksnelheid: BinaryShield is 38x sneller dan dichte embeddings bij het zoeken in corpora van 100.000 items (0,38 seconden vs. 14,52 seconden).
- Opslag: De opslagvereisten worden drastisch verlaagd, waardoor het mogelijk is om dreigingsinformatie op conventionele servers te houden in plaats van dure GPU-clusters.
- Schaalbaarheid: De nauwkeurigheid daalt nauwelijks naarmate de corpusgrootte toeneemt van 10k naar 100k items, wat aantoont dat het systeem geschikt is voor enterprise-deployments.

Betekenis en Impact

BinaryShield lost een fundamenteel probleem op in de beveiliging van LLM-ecosystemen: de spanning tussen samenwerking en privacy. Door een praktische methode te bieden om dreigingsinformatie te delen zonder gevoelige data te onthullen, stelt het organisaties in staat om proactief te reageren op nieuwe aanvalsmethoden.

Dit werk legt de basis voor een industrieel ecosysteem van dreigingsinformatie (vergelijkbaar met malware-handtekening-databases) voor LLM's. Gezien de opkomst van autonome agents en de risico's van prompt-injectie die leiden tot willekeurige code-executie, biedt BinaryShield een cruciale verdedigingslaag die het mogelijk maakt om collectief te verdedigen tegen evoluerende bedreigingen, terwijl de strikte eisen van regelgeving en gebruikersprivacy worden gerespecteerd.

BinaryShield: Cross-Service Threat Intelligence in LLM Services using Privacy-Preserving Fingerprints

🛡️ BinaryShield: De "Stempel" die Geheimen Bewaart

Probleemstelling

Methodologie: BinaryShield

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics