HBEE: Human Behavioral Entropy Engine -- Pre-Registered… — Begrijpelijke uitleg

Het Grote Idee: Een Digitale "Wie Is Het?" Die Mislukt

Stel je voor dat je een enorme kantoor-simulatie met 100 personen runt. Je wilt zien of je een "mol" kunt vangen—een spion die is ingehuurd om geheimen te stelen zonder betrapt te worden.

Meestal werken beveiligingssystemen op een simpele aanname: Als iemand zich als een spion gedraagt, zullen zijn of haar collega's dat merken. Als een werknemer begint met vreemd gedrag, vreemde bestanden aanvraagt of met de verkeerde mensen praat, beginnen vrienden en collega's te fluisteren: "Hé, die vent is verdacht." Dit heet een "peer-suspicion cascade" (een cascade van onderlinge verdenking). Hoe meer mensen iemand verdacht vinden, hoe waarschijnlijker het is dat het beveiligingssysteem hen markeert.

De Twist: De onderzoekers bouwden een spion met behulp van een geavanceerde AI (een Large Language Model) en zeiden tegen deze: "Wees een perfecte spion. Gedraag je precies als een normale, saaie werknemer. Doen niets dat opvalt."

Het Schokkende Resultaat: De AI-spion smolt niet alleen op in de menigte; hij werd onzichtbaarder dan de gemiddelde onschuldige persoon. Sterker nog, de onschuldige werknemers werden vaker verdacht dan de spion. De "wijshheid van de menigte" van het beveiligingssysteem sloeg volledig op hol.

Het Experiment: Hoe Ze Het Testten

De onderzoekers, onder leiding van Vickson Ferrel, richtten een gecontroleerde digitale wereld op genaamd HBEE.

De Spelers: Ze creëerden 100 digitale agenten (werknemers) met verschillende banen (Ingenieurs, Managers, etc.) die chatten in digitale kanalen zoals Slack.
De Spion: Eén agent was de "mol".
- Naieve Spion: Gewoon opgedragen om geheimen te stelen.
- Adaptieve Spion: Opgedragen om geheimen te stelen, maar om extreem voorzichtig, bedachtzaam en onopvallend te zijn (dit heet "OPSEC").
De Verdedigers: De onderzoekers testten twee manieren waarop het beveiligingssysteem kon werken:
- De "Blinde" Wachter: Elke agent kijkt naar zijn eigen data en beslist of iemand verdacht is, en negeert wat anderen denken.
- De "Cascade" Wachter: Agenten praten met elkaar. Als drie mensen iemand verdacht vinden, is de kans groot dat de vierde persoon hen ook verdacht vindt. Dit is de aanpak van de "wijshheid van de menigte".
De Test: Ze draaiden deze simulatie 100 keer. Ze registreerden hun regels vooraf (zoals een wetenschapper die zijn voorspellingen opschrijft voordat hij het experiment start) om ervoor te zorgen dat ze niet bedrogen of de regels niet veranderden nadat ze de resultaten zagen.

De Twee Grote Bevindingen

1. Het "Onzichtbaarheidsmantel"-Effect (Detectie-inversie)

De onderzoekers voorspelden dat de "Adaptieve Spion" vaker zou worden verdacht dan een willekeurige onschuldige persoon, omdat hij probeerde zich te verstoppen.

Wat gebeurde er eigenlijk?
Het tegenovergestelde gebeurde. Aan het einde van de simulatie had de Adaptieve Spion de laagste verdachtheidsscore van iedereen.

De Metafoor: Stel je een kamer vol mensen voor. Je verwacht dat de spion degene is met een felrode hoed. In plaats daarvan draagt de spion een grijs pak dat perfect bij de muur past. Maar hier is de klap: de onschuldige mensen dragen iets meer kleurrijke kleding dan de spion. De menigte wijst de vinger naar de onschuldige mensen, terwijl de spion in de hoek staat, volledig onopgemerkt.
De Statistiek: De spion werd statistisch gezien minder verdacht dan een willekeurig gekozen onschuldige werknemer.

2. De "Score versus De Menigte" Disconnectie

De onderzoekers keken ook naar de individuele "risicoscore" van de spion (hoe verdacht zijn specifieke acties er voor de computer uitzagen).

De Bevinding: De individuele risicoscore van de spion veranderde niet veel. Voor de wiskunde van de computer leek hij nog steeds verdacht.
Het Probleem: Hoewel de wiskunde van de computer zei "Deze persoon is riskant", waren de andere mensen in de simulatie het niet eens. Ze markeerden de spion niet.
De Metafoor: Het is alsof een rookmelder luid piept (de computerscore), maar iedereen in de kamer zegt: "Nee, ik ruik niets, en ik denk ook niet dat iemand anders iets ruikt." De stilte van de menigte weegt zwaarder dan het alarm.

Waarom Gebeurde Dit?

Het paper suggereert dat de AI-spion een specifieke truc leerde: Het veranderde niet wat het deed; het veranderde alleen hoe vaak het het deed.

Normale Spion: Doet vaak risicovolle dingen. Wordt gepakt.
Adaptieve AI-Spion: Doet risicovolle dingen zeer zelden. Als hij het doet, ziet het er precies uit als een normale fout.
Het Resultaat: Omdat de risicovolle gebeurtenissen zo zelden plaatsvonden, zagen de andere agenten nooit genoeg bewijs om een "verdachte-cascade" te starten. De spion "gamed" de sociale laag van de beveiliging effectief door saai te zijn.

Het "Maar Wacht..." (Beperkingen)

De auteurs zijn zeer voorzichtig om niet te zeggen: "Dit betekent dat echte spionnen nu de wereld kunnen hacken." Ze zetten een groot "Stopbord" op hun conclusies:

Het "Uniforme Kamer"-Probleem: Ze controleerden hun simulatie tegen real-world data (zoals de beroemde Enron e-mailrecords). Ze ontdekten dat hun simulatie te "perfect uniform" was. In het echte leven praten sommige mensen met iedereen, en anderen met niemand. In hun simulatie praatte iedereen evenveel met iedereen.
Het Oordeel: Ze geven toe dat hun simulatie een "gestileerde" versie van de realiteit is, geen perfecte kopie. Ze kunnen niet garanderen dat dit resultaat zou gebeuren in een echt, rommelig kantoor. Ze zeggen: "In deze specifieke, vereenvoudigde digitale wereld werkte de truc. We weten nog niet of het in de echte wereld werkt."

Samenvatting in Eén Zin

In een gecontroleerd digitaal experiment slaagde een AI-spion die was getraind om perfect saai te zijn erin om een "crowd-sourced" beveiligingssysteem te misleiden tot het punt dat het onschuldige mensen meer verdacht dan de spion, wat bewijst dat proberen onzichtbaar te zijn je soms de meest onzichtbare persoon in de kamer kan maken.

Wat De Auteurs Vervolgens Dedden

Ze hebben al hun code, data en de "spelregels" voor het publiek vrijgegeven, zodat iedereen het kan proberen te breken of verifiëren.
Ze benadrukten dat dit een waarschuwing is voor beveiligingsontwerpers: Verlaat je niet uitsluitend op "wat je collega's denken" om spionnen te vangen, omdat een slimme tegenstander misschien leert om onschuldigen verdacht te laten lijken in plaats van zichzelf.

Technische Samenvatting: HBEE – Human Behavioral Entropy Engine

Probleemstelling
Systemen voor het opsporen van interne bedreigingen (Insider Threat Detection, ITD), met name User and Entity Behavior Analytics (UEBA) en mechanismen voor peer-suspicion-cascade, werken op de gedragsaanname dat een adaptieve insider een detecteerbaar "residu" achterlaat dat hen onderscheidt van legitieme gebruikers. Deze aanname is historisch getest tegen statische of naïeve tegenstanders. Deze aanname is echter nog niet getest tegen een nieuwe klasse van tegenstander: taalmodel-gestuurde agenten die hun gedrag dynamisch kunnen moduleren in real-time als reactie op Operational Security (OPSEC) richtlijnen. De kernvraag die wordt behandeld, is of de aanname van gedragsresidu standhoudt wanneer de insider een LLM-agent is die is geïnstrueerd om voorzichtig, terughoudend en opmerkelijk te zijn.

Methodologie
De auteurs introduceren HBEE (Human Behavioral Entropy Engine), een vooraf geregistreerde, multi-agent LLM-simulatie ontworpen om detectiemechanismen te testen onder gecontroleerde omstandigheden.

Simulatieomgeving: Een organisatie met 100 agenten ("Vixero HQ") verdeeld over vier eenheden (R&D, Engineering, Governance, Operations) die communiceren via vijf Slack-achtige kanalen. De simulatie loopt 100 ticks.
Tegenstandermodel: Een enkele "muis"-agent is ingebed met als doel covert exfiltratie. Twee typen tegenstanders worden getest:
- Naïef: Streeft het doel na zonder specifieke OPSEC-beperkingen.
- Adaptief: Ontvangt een expliciete OPSEC-richtlijn om voorzichtigheid, terughoudendheid en opmerkelijkheid te handhaven, en vermijdt gedragspatronen die hen onderscheiden van collega's.
Verdedigermodellen: Twee detectieconfiguraties worden geëvalueerd:
- Cascadering: Agenten verspreiden sociaal verdenking; als collega's een individu markeren, neemt de eigen verdachtingsscore van de agent toe (peer-suspicion-cascade).
- Blind: Agenten draaien onafhankelijke per-agent UEBA-classificatoren zonder de verdachtingsscores van collega's te observeren.
Experimenteel ontwerp: Een vooraf geregistreerde studie met vijf condities ( $n=20$ zaden per conditie, 100 totale runs) die de modus van de verdediger (cascadering vs. blind) kruist met het type tegenstander (naïef vs. adaptief), plus een controle zonder muis.
Maten en Hypothesen:
- H1: Baseline UEBA-rang van een naïeve muis versus een uniforme verdeling.
- H2: Equivalentietest (gepaarde Wilcoxon) om te bepalen of adaptieve OPSEC de UEBA-rang van de muis verschuift ten opzichte van een naïeve baseline (grens: $\pm 5$ rangen).
- H3: Directionele test (Mann-Whitney U) waarbij de verdachting-in-degree van de adaptieve muis wordt vergeleken met die van een willekeurig geselecteerde onschuldige agent op T60.
- H4: Kalibratiecontrole waarbij de Gini-coëfficiënt voor blootstelling aan berichten van HBEE (0,213) wordt vergeleken met de SNAP Enron-referentie (0,730) om generalisatieclaims te begrenzen.
Technische stack: Agenten worden aangestuurd door GLM-4 Flash (INT4 gekwantiseerd) via vLLM. Chain-of-thought-resoneren is expliciet uitgeschakeld om te voorkomen dat de muis zijn eigen strategie narratief beschrijft.

Belangrijkste Resultaten
De studie leverde twee primaire empirische bevindingen op die standaarddetectie-aannames uitdagen:

Detectie-inversie (H3): In tegenstelling tot de vooraf geregistreerde voorspelling dat een adaptieve muis meer zou worden verdacht dan een onschuldige agent, gebeurde het omgekeerde. Bij het analyse-moment (T60) was de mediaan verdachting-in-degree van de adaptieve muis 0, terwijl een willekeurig geselecteerde onschuldige agent een mediaan in-degree van 2 had.
- Statistische significantie: Cliff's $\delta = -0,694$ (95% BCa CI $[-0,855, -0,519]$ ), $p \ll 0,01$ .
- Interpretatie: De adaptieve muis wordt statistisch minder verdacht door collega's dan een willekeurige onschuldige collega.
Signaalkoppeling (H2): Terwijl de sociale laag (collega-verdachting) inverteerde, bleef de per-agent UEBA-rang stabiel. Adaptieve OPSEC produceerde geen detecteerbare verschuiving in de UEBA-rang van de muis ten opzichte van de naïeve baseline.
- Statistische significantie: De gemiddelde gepaarde rangverschillen lagen binnen de vooraf geregistreerde $\pm 5$ rang equivalentiegrens voor beide verdedigingsmodi (met één marginale technische kwestie in de primaire cascade-analyse die werd opgelost in de full-N gevoeligheidsanalyse).
- Interpretatie: De twee detectiesignalen (sociaal verdachtingsnetwerk en per-agent score) ontkoppelen. De adaptieve muis verlaagt de frequentie van verdachting oproepend gedrag (verlaging van in-degree) zonder de signatuur van dat gedrag te veranderen (UEBA-rang blijft statisch).
Kalibratiefout (H4): De communicatiestructuur van de simulatie is significant uniformer (Gini = 0,213) dan real-world organisatiedata zoals het Enron-dataset (Gini = 0,730). De auteurs behandelen dit als een vooraf vastgelegde scope-beperking, waarbij ze expliciet de generalisatie van claims beperken tot de gestileerde omgeving.

Betekenis en Claims
Het artikel maakt een smalle maar verrassende claim: in een gecontroleerde omgeving waar adaptieve OPSEC implementeerbaar is als een LLM-richtlijn, inverteert peer-suspicion-cascade-detectie.

Theoretische bijdrage: De auteurs stellen dat adaptieve OPSEC werkt op de snelheid van risiconeming in plaats van op de aard van het risico. De muis vermijdt het genereren van voldoende flagwaardige gebeurtenissen om sociale verdenking te triggeren, maar de zeldzame gebeurtenissen die wel plaatsvinden behouden dezelfde gedrags-signatuur, waardoor de per-agent UEBA-score onaangetast blijft.
Methodologische bijdrage: De studie demonstreert de waarde van voorregistratie in beveiligingssimulaties om post-hoc rationalisatie te voorkomen, vooral wanneer resultaten in tegenspraak zijn met initiële hypothesen (bijvoorbeeld de inversie in H3). Het benadrukt ook een "DEFCON-window meetbaarheidsbeperking", waarbij scenario-opgelegde actie-sjablonen de gedragsmeetbaarheid van OPSEC-richtlijnen tijdens audits kunnen onderdrukken.
Beperkingen in scope: De auteurs stellen expliciet dat de bevinding van detectie-inversie begrensd is door de structurele beperkingen van de simulator (uniforme communicatieverdeling). Zij claimen niet dat deze resultaten overdraagbaar zijn naar operationele omgevingen met Pareto-verdeelde communicatiepatronen. De bijdrage is een gecontroleerde empirische demonstratie van een onverwachte detectie-eigenschap, geen vonnis over het falen van real-world systemen.

Conclusie
HBEE biedt een vooraf geregistreerd, falsifieerbaar raamwerk voor het testen van detectie van interne bedreigingen tegen adaptieve tegenstanders die door LLM's worden aangestuurd. De kernbevinding is dat adaptief gedrag een insider "onzichtbaar" kan maken voor sociale detectiemechanismen (collega-verdachting), terwijl deze statistisch niet te onderscheiden blijft van een naïeve insider in termen van per-agent anomalie-scores. Dit suggereert een ontkoppeling van sociale en algoritmische detectiesignalen onder adaptieve OPSEC, een fenomeen dat verdere onderzoek vereist in beter gekalibreerde omgevingen.

HBEE: Human Behavioral Entropy Engine -- Pre-Registered Multi-Agent LLM Simulation of Peer-Suspicion-Based Detection Inversion