Neurosymbolic Learning for Advanced Persistent Threat Detection under Extreme Class Imbalance

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme, drukke stad bent (een slimme stad met duizenden IoT-apparaten zoals slimme lampen, sensoren en camera's). In deze stad gebeurt er bijna altijd niets bijzonders: mensen lopen rond, lampen gaan aan en uit. Dit is de normale verkeersstroom.

Maar dan zijn er ook sluipende dieven (de hackers). Ze komen niet met een brede klap, maar sluipen in, kijken eerst rond, verplaatsen zich van huis naar huis, en stelen pas op het einde iets kleins. Dit noemen we een APT (Advanced Persistent Threat).

Het probleem is tweeledig:

De naald in de hooiberg: Er zijn miljoenen normale activiteiten en slechts een handjevol dieven. Als je een gewone camera (een standaard computerprogramma) neerzet, ziet die alleen maar de massa en mist de dieven, of hij roept te vaak "Dief!" terwijl het gewoon een voorbijganger is.
De zwarte doos: Zelfs als de camera een diep ziet, zegt hij niet waarom. "Ik denk dat die man een dief is." Maar waarom? Welke stap gaf het weg? Voor beveiligingsexperts is dat niet genoeg; ze moeten het begrijpen om te weten of het echt gevaar is.

De Oplossing: Een Team van een Genie en een Logica-Meester

De auteurs van dit paper hebben een slimme oplossing bedacht: Neurosymbolic Learning. Ze hebben twee experts samengevoegd tot één team:

Het Genie (BERT - De Neural Component):
Dit is een heel slimme AI die gewend is om taal te begrijpen (zoals een vertaalbot). In plaats van woorden, leert deze AI nu "zinnen" van netwerkdata. Hij kijkt naar patronen. Hij ziet: "Oh, dit gedrag lijkt op wat dieven doen." Hij is goed in het voelen van patronen, maar hij kan soms niet goed uitleggen waarom.
De Logica-Meester (LTN - De Symbolic Component):
Dit is de strenge, logische denker. Hij werkt met regels, zoals een detective die een checklist afwerkt. Hij vraagt zich af: "Is de data-overdracht groter dan normaal? Is er een verdachte poort gebruikt?" Hij geeft een score: "Ja, dit klopt met de regels voor diefstal."

Hun samenwerking:
Het Genie kijkt naar de data en zegt: "Ik zie een patroon!" De Logica-Meester zegt: "Laat me checken of dit patroon voldoet aan onze regels." Samen beslissen ze. Het mooie is: omdat de Logica-Meester erbij is, kunnen ze precies uitleggen welke regel het verdachte gedrag veroorzaakte. Geen "zwarte doos" meer, maar een transparant proces.

Hoe gaan ze om met de "Naald in de Hooiberg"?

Omdat er zo weinig dieven zijn (slechts 1,65% van de data), zou een gewone AI denken: "Ik roep gewoon 'Alles is veilig' en ik heb 98% van de tijd gelijk." Dat is nutteloos.

De auteurs gebruiken een tweestaps-strategie:

Stap 1: De Poortwachter. Een simpele, snelle check. "Is dit normaal of verdacht?" Als het verdacht is, gaat het door. Als het normaal is, gaat het weg. Hierdoor hoef je niet elke seconde te controleren op de soort diefstal, maar alleen op "Is er überhaupt iets aan de hand?".
Stap 2: De Detective. Alleen als de Poortwachter roept "Stop!", komt de Detective kijken. Welk type diefstal is het? Is het "inbraken", "spioneren" of "weglopen met de schat"? Omdat de Detective alleen naar de verdachte gevallen kijkt, is de verhouding tussen dieven en slachtoffers hier veel eerlijker, waardoor hij veel beter kan leren.

Wat is het resultaat?

Ze hebben dit getest op een echte dataset met slimme stadsdata.

Succes: Ze vonden 95% van de echte dieven.
Geen onnodig lawaai: Ze riepen maar 1 keer per 1000 keer "Dief!" terwijl het veilig was (een heel lage "false positive" rate). Dit is cruciaal, want als je te vaak alarm slaat, stoppen mensen met luisteren (vermoeidheid).
Vertrouwen: Het belangrijkste: ze kunnen bewijzen waarom ze een alarm slaan. Ze hebben statistisch bewezen dat de AI kijkt naar de juiste dingen (zoals de grootte van pakketten of de snelheid van verbindingen) en niet naar toeval.

Conclusie in één zin

Dit systeem is als een super-slimme, logische bewaker die niet alleen ziet wie er iets stiekems doet, maar je ook precies kan vertellen waarom hij dat denkt, zodat je er volledig op kunt vertrouwen in een wereld vol slimme apparaten.

Neurosymbolic Learning for Advanced Persistent Threat Detection under Extreme Class Imbalance

De Oplossing: Een Team van een Genie en een Logica-Meester

Hoe gaan ze om met de "Naald in de Hooiberg"?

Wat is het resultaat?

Conclusie in één zin

Probleemstelling

Methodologie: Neurosymbolische Architectuur

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Neurosymbolic Learning for Advanced Persistent Threat Detection under Extreme Class Imbalance

De Oplossing: Een Team van een Genie en een Logica-Meester

Hoe gaan ze om met de "Naald in de Hooiberg"?

Wat is het resultaat?

Conclusie in één zin

Probleemstelling

Methodologie: Neurosymbolische Architectuur

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank