Network Traffic Analysis with Process Mining: The UPSIDE Case Study

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een online game-netwerk een enorm, drukke luchthaven is. Duizenden vliegtuigen (je data-pakketten) vliegen continu heen en weer tussen de passagiers (jouw telefoon of computer) en de bestemming (de game-server).

In het verleden keken experts naar deze luchthaven en probeerden ze te raden wat er aan de hand was door gewoon naar de vliegtuigen te kijken. Ze gebruikten complexe "zwarte doos" computers (kunstmatige intelligentie) die wel goed konden voorspellen of er een storm kwam, maar die niet konden uitleggen waarom. Het was alsof een robot zegt: "Er is gevaar," zonder te vertellen of het een storm is, een brand of een vogel die in de motor is gevlogen.

De auteurs van dit paper, Francesco, Massimiliano, Nicola en Paolo, hebben een nieuwe manier bedacht om deze luchthaven te begrijpen. Ze noemen hun methode "Process Mining". Laten we dit uitleggen met een paar simpele metaforen.

1. Het probleem: De chaos van de data

Wanneer je Clash Royale of Rocket League speelt, sturen je apparaat en de server duizenden kleine boodschappen naar elkaar. Dit is als een enorme stroom van brieven die door een postkantoor worden gegooid. De meeste brieven zien er hetzelfde uit, maar ze bevatten verschillende boodschappen: "Ik heb een kaart gespeeld" of "Ik heb een goal gescoord".

Het probleem is dat deze brieven door elkaar heen liggen (ze zijn "verweven") en er veel ruis in zit. Als je gewoon kijkt, zie je alleen een wirwar van papier.

2. De oplossing: De "Vormgever" (Process Mining)

De auteurs zeggen: "Laten we niet naar elke losse brief kijken, maar naar patronen."

Hun methode werkt in vier stappen, alsof je een detective bent die een verhaal reconstrueert:

Stap 1: De observatiepost. Ze kijken niet naar de hele luchthaven, maar naar specifieke vliegtuigen (jouw apparaat). Ze verzamelen alle data, maar zonder de game zelf te verstoren.
Stap 2: De blokken bouwen. Ze nemen de stroom van brieven en snijden ze in gelijke stukken (zoals blokken van LEGO). In elk blokje tellen ze hoeveel brieven er zijn, hoe groot ze zijn en welke "vlaggen" ze hebben (bijvoorbeeld: is het een bevestiging? Is het een nieuwe vraag?).
Stap 3: Het sorteren (De "Staten"). Dit is het slimste deel. Ze gebruiken een slimme manier om te groeperen. Ze zeggen: "Oké, als er in dit blokje veel kleine, snelle brieven zijn, noemen we dat Staat A. Als er grote, langzame brieven zijn, noemen we dat Staat B."
- Ze doen dit zonder dat ze van tevoren weten welke game er gespeeld wordt. Ze laten de data zelf de groepen vormen.
Stap 4: De blauwdruk (Petri-netten). Nu hebben ze de groepen. Ze tekenen voor elke groep een blauwdruk (een Petri-net).
- Metafoor: Stel je voor dat je een tekening maakt van hoe een speler normaal gesproken communiceert. Voor Clash Royale is de tekening misschien een snelle, ritmische dans (veel kleine stappen). Voor Rocket League is het een andere dans (grotere sprongen). Deze tekeningen zijn heel duidelijk en mensen kunnen ze lezen, in tegenstelling tot de onbegrijpelijke "zwarte doos".

3. Het experiment: De UPSIDE Case Study

Ze hebben dit getest tijdens een groot evenement genaamd UPSIDE. Ze hadden mensen die Clash Royale (een strategisch kaartspel) speelden en mensen die Rocket League (auto's die met een bal voetballen) speelden.

Ze vroegen zich af: "Kunnen we, puur op basis van het gedrag van de data, zien wie welke game speelt?"

De resultaten:

Het werkt! Ze konden de twee games heel goed van elkaar onderscheiden.
Het is begrijpelijk. Omdat ze blauwdrukken (Petri-netten) maakten, konden ze precies zien waarom het Clash Royale was. Bijvoorbeeld: "Ah, dit apparaat stuurt constant kleine bevestigingen, dat is typisch voor Clash Royale."
De balans: Ze ontdekten dat je de "blokken" (de data die je tegelijk bekijkt) niet te groot mag maken. Als je te veel data in één blok stopt, wordt het patroon vaag en onduidelijk (alsof je een hele dag van iemand probeert te samenvatten in één zin). Maar als je de blokken te klein maakt, zie je geen patroon. De perfecte balans gaf de beste resultaten.

Waarom is dit belangrijk?

Vroeger moesten we vertrouwen op ingewikkelde algoritmes die we niet konden uitleggen. Met deze methode kunnen we:

Netwerkproblemen sneller oplossen: Als het gedrag van de "blauwdruk" niet meer klopt, weten we direct dat er iets mis is.
Veiligheid: Als er een hacker probeert in te breken, ziet zijn "dans" er heel anders uit dan die van een normale speler. We kunnen hem dan direct herkennen.
Betere games: Game-maatschappijen kunnen zien hoe hun servers reageren en de ervaring voor spelers verbeteren.

Kortom:
De auteurs hebben een manier bedacht om de chaotische stroom van internet-data van games om te zetten in duidelijke, leesbare kaarten. Het is alsof ze van een wirwar van kluwen garen een nette, opgerolde bundel maken, zodat je precies kunt zien welk garen bij welke game hoort. En het beste van alles? Iedereen kan de kaart lezen en begrijpen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Network Traffic Analysis with Process Mining: The UPSIDE Case Study" in het Nederlands.

Probleemstelling

Online gaming genereert enorme hoeveelheden netwerkverkeer, wat uitdagend is voor het beheer van bandbreedte, het voorspellen van hoge belastingen en het detecteren van kwaadaardige activiteiten. Hoewel diep leren (deep learning) vaak wordt gebruikt voor verkeersanalyse, lijdt het vaak aan gebrek aan interpreteerbaarheid (het is een "black box").

Bestaande process mining-technieken (die data-driven analyses combineren met modelgebaseerde inzichten) zijn veelbelovend voor interpreteerbare analyse, maar worden zelden toegepast op videospelverkeer. De uitdagingen zijn:

Het ruis- en verweven karakter van netwerkverkeer maakt het moeilijk om zinvolle "gevallen" (case IDs) te identificeren.
De complexiteit kan leiden tot underfitting, waarbij modellen te algemene generalisaties maken.
Er is een gebrek aan methoden die specifiek gericht zijn op het modelleren van spelverkeer zonder voorafgaande kennis van de gegenereerde activiteiten.

Methodologie

De auteurs stellen een onbewaakte (unsupervised) methode voor die netwerkverkeer omzet in interpreteerbare gedragsmodellen (Petri-netten). De methode bestaat uit vier fasen:

Netwerkverkeersmonitoring:
- Verkeer wordt niet-invasief verzameld van meerdere apparaten die verbinding maken met gameservers.
- De data wordt gemodelleerd als een verzameling pakketten met metadata, payload en protocolinformatie.
Feature Extractie:
- Protocol parsing: Selectie van een specifiek protocol (in dit geval TCP).
- Windowing: Het toepassen van een gleuf (sliding window) op de pakketstroom om gestructureerde vensters te creëren.
- Feature-extractie: Uit elk venster worden synthetische kenmerken gehaald, zoals het aantal specifieke TCP-vlaggen (ACK, SYN, PSH, etc.) en de gemiddelde payload-grootte.
Karakterisering van Toestanden (State Characterization):
- Omdat er geen gelabelde data is, wordt K-means clustering gebruikt op de vensterstatistieken om verschillende netwerktoestanden te identificeren.
- Een alignatie-functie koppelt deze geclusterde toestanden terug aan de originele TCP-pakketten, waardoor elk pakket een specifieke "toestand" krijgt toegewezen.
Netwerkverkeersmodellering:
- Op basis van de toestandsgebonden data worden event logs gegenereerd per toestand.
- Een process discovery-algoritme (Inductive Miner) wordt toegepast op deze logs om een Petri-net te construeren voor elke toestand.
- Petri-netten bieden een visuele en wiskundige weergave van de controleflow (transities en plaatsen), wat de interpreteerbaarheid garandeert.

Kernbijdragen

Onbewaakte identificatie van toestanden: De methode kan verschillende toestanden in gaming-verkeer automatisch detecteren zonder voorafgaande labels.
Fine-tuning van complexiteit: Het systeem balanceert de complexiteit van de toestandsruimte om de ruis in netwerkdata te compenseren en underfitting te voorkomen.
Interpreteerbare modellen: In plaats van een black-box classifier, worden de toestanden gecodeerd als Petri-netten die menselijk inzichtelijk zijn (bijv. specifieke communicatiepatronen tussen client en server).
Classificatie en detectie: De methode kan verkeer classificeren om te bepalen welk spel er gespeeld wordt, gebaseerd op de fit van het verkeer met de gegenereerde Petri-netten.

Resultaten (UPSIDE Case Study)

De methode werd getest op data van het UPSIDE-evenement, waarbij apparaten verbinding maakten met twee spellen: Clash Royale (CR) en Rocket League (RL).

Modellering: De gegenereerde Petri-netten waren coherent tussen verschillende apparaten maar verschillend genoeg om de specifieke spellen te onderscheiden.
Classificatieprestaties:
- De beste resultaten werden behaald met een venstergrootte (Window Length) van 3 en 3 toestanden.
- AUC (Area Under Curve): 88,30% (significant hoger dan vergelijkbare interpreteerbare methoden zoals Isolation Forest, HBOS, Z-score en COPOD).
- Cosine Similariteit: 58,14% tussen de waarschijnlijkheidsverdelingen van de twee spellen, wat aangeeft dat ze goed van elkaar te onderscheiden zijn.
Invloed van parameters:
- Te grote venstergroottes leiden tot underfitting (verlies van detail en lagere classificatie).
- Een te eenvoudige toestandsruimte (weinig toestanden) leidt tot ondiepe generalisaties.
- Een balans tussen venstergrootte en aantal toestanden is cruciaal voor zowel interpretatie als nauwkeurigheid.
Interpretatie: Een geanalyseerd Petri-net (voor toestand $s_2$ ) toonde een specifiek patroon van CR-verkeer: een burst van berichten van client naar server met de PSH-vlag (directe doorstorting zonder buffering), gevolgd door ACK-pakketten van de server. Dit patroon werd volledig automatisch geïdentificeerd.

Betekenis en Conclusie

Dit paper demonstreert dat process mining een krachtig alternatief is voor deep learning in de analyse van gaming-netwerkverkeer, vooral wanneer interpreteerbaarheid en verantwoording van beslissingen belangrijk zijn.

De methode slaagt erin om complexe, ruisende netwerkdata om te zetten in gestructureerde, menselijk leesbare modellen (Petri-netten).
Het biedt een nieuwe aanpak voor het detecteren van spelverkeer en anomalieën zonder dat er enorme gelabelde datasets nodig zijn.
De resultaten tonen aan dat het balanceren van modelcomplexiteit (venstergrootte vs. aantal toestanden) essentieel is om de valkuil van underfitting te vermijden en toch specifieke gedragspatronen te vangen.

Toekomstig werk richt zich op het verfijnen van de methode om gedragsoverlap te verminderen en het toepassen op andere IoT-protocollen en overlappende vensters.

Network Traffic Analysis with Process Mining: The UPSIDE Case Study

1. Het probleem: De chaos van de data

2. De oplossing: De "Vormgever" (Process Mining)

3. Het experiment: De UPSIDE Case Study

Waarom is dit belangrijk?

Probleemstelling

Methodologie

Kernbijdragen

Resultaten (UPSIDE Case Study)

Betekenis en Conclusie

Meer zoals dit

XConv: Low-memory stochastic backpropagation for convolutional layers

A Survey on Decentralized Federated Learning

Polynomially Over-Parameterized Convolutional Neural Networks Contain Structured Strong Winning Lottery Tickets

Provable Filter for Real-world Graph Clustering

Enhancing Computational Efficiency in Multiscale Systems Using Deep Learning of Coordinates and Flow Maps