Rel-MOSS: Towards Imbalanced Relational Deep Learning on Relational Databases

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme bibliotheek hebt met miljoenen boeken. Deze bibliotheek is niet zomaar een stapel; de boeken zijn allemaal met elkaar verbonden. Sommige boeken vertellen over schrijvers, andere over uitgevers, weer andere over recensies. In de wereld van data noemen we dit een relationele database.

Normaal gesproken gebruiken slimme computers (AI) deze bibliotheek om dingen te voorspellen, zoals: "Zal deze klant binnenkort stoppen met kopen?" of "Is dit een nep-account?".

Maar hier zit een groot probleem, en dat is waar dit nieuwe onderzoek over gaat.

Het Probleem: De "Stille Minderheid"

Stel je voor dat je in die bibliotheek op zoek bent naar nep-reviews.

Er zijn miljoenen echte reviews (de meerderheid).
Er zijn slechts een paar duizend nep-reviews (de minderheid).

Als je een AI traint om nep-reviews te vinden, maar je geeft haar gewoon alle boeken te lezen, gaat ze iets raars doen. Omdat 99% van de boeken "echt" is, leert de AI: "Ah, alles is echt! Ik ga maar gewoon zeggen dat alles echt is."

De AI wordt dan heel goed in het herkennen van echte reviews, maar ze ziet de nep-reviews helemaal niet meer. Ze wordt "blind" voor de zeldzame, maar cruciale gevallen. In de echte wereld betekent dit dat je nep-accounts niet opspoort of dat je geen zieke patiënten herkent die zeldzame symptomen hebben.

De Oplossing: Rel-MOSS

De auteurs van dit paper hebben een nieuwe manier bedacht om dit op te lossen, genaamd Rel-MOSS. Ze gebruiken twee slimme trucs om de AI te dwingen de "stille minderheid" te horen.

Truc 1: De Slimme Filter (De "Portier")

Stel je voor dat de AI informatie verzamelt van de boeken die naast elkaar staan (de connecties in de database). Normaal gesproken luistert de AI naar alles even hard. Maar omdat er zoveel meer "echte" boeken zijn, klinkt die informatie zo hard dat de "nep"-informatie verdwijnt.

Rel-MOSS gebruikt een slimme portier (in het paper: Rel-Gate).

Deze portier kijkt naar elke groep boeken die de AI raadpleegt.
Hij vraagt zich af: "Is hier veel informatie over de zeldzame nep-reviews?"
Als het antwoord ja is, zet hij de volumeknop van die informatie harder.
Als het antwoord nee is (alleen maar saaie, gewone informatie), zet hij het volume zacht.

Zo zorgt hij ervoor dat de AI de zeldzame signalen niet overhoort door de ruis van de meerderheid.

Truc 2: De Slimme Kloonmaker (De "Bakker")

Omdat er zo weinig nep-reviews zijn, wil de AI graag meer voorbeelden zien om te leren. Een simpele oplossing is om bestaande nep-reviews te kopiëren, maar dat werkt niet goed; de AI leert dan alleen maar uit het hoofd.

De auteurs gebruiken daarom een slimme bakker (in het paper: Rel-Syn) om nieuwe, neppe voorbeelden te bakken.

Maar hier is de truc: In een bibliotheek is niet alleen de tekst van het boek belangrijk, maar ook hoe het boek verbonden is met andere boeken (wie is de schrijver? Welke uitgever?).
Als je een nep-boek maakt, moet het eruitzien alsof het echt in de bibliotheek thuishoort. Als je een nep-boek maakt dat geen connectie heeft met de juiste uitgever, is het nep en werkt het niet.

Deze "bakker" kijkt dus niet alleen naar de tekst, maar ook naar de structuur (de connecties). Hij maakt nieuwe, zeldzame voorbeelden die er precies zo uitzien als de echte zeldzame gevallen, inclusief hun unieke connecties. Hierdoor leert de AI veel beter wat een "nep"-geval echt is.

Wat levert dit op?

De auteurs hebben deze methode getest op 12 verschillende databases (van auto-races tot online winkels).

Resultaat: De AI werd veel beter in het vinden van de zeldzame, belangrijke gevallen.
Vergelijking: Het was veel beter dan de oude methoden die gewoon probeerden de data te "hermengen" of de AI te straffen als ze een fout maakte.

Samenvatting in één zin

Rel-MOSS is als een slimme detective die niet alleen luistert naar de schreeuwers (de meerderheid), maar een speciale filter gebruikt om de fluisteraars (de minderheid) te horen, en die daarna zelf nieuwe, realistische voorbeelden van die fluisteraars bedenkt om beter te leren.

Dit zorgt ervoor dat AI-systemen in de echte wereld eerlijker zijn en geen belangrijke, zeldzame gebeurtenissen (zoals fraude of ziektes) missen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Rel-MOSS: Towards Imbalanced Relational Deep Learning on Relational Databases" in het Nederlands.

Probleemstelling: Class Imbalance in Relationele Databases

Hoewel Relationeel Deep Learning (RDL) een krachtige paradigma is geworden voor het analyseren van relationele databases (RDB) door deze te modelleren als heterogene entiteitsgrafen, negeren bestaande methoden een kritiek probleem: class imbalance (ongelijkheid in klassen).

In real-world RDB-toepassingen (zoals e-commerce, sociale media en gezondheidszorg) zijn zeldzame gebeurtenissen (minderheidsklassen), zoals fraude of klantvertrek, vaak cruciaal, maar vormen ze slechts een klein deel van de data. Bestaande RDL-modellen, die gebaseerd zijn op Graph Neural Networks (GNN), hebben twee fundamentele tekortkomingen bij het omgaan met deze onbalans:

Informatie-instorting (Information Collapse): Omdat de meerderheidsklassen overweldigend veel voorkomen, domineren hun berichten in het message-passing proces van de GNN. Hierdoor worden de representaties van minderheidsentiteiten "overstemd" en ononderscheidbaar van de meerderheid.
Schending van relationele consistentie: Bestaande oversampling-technieken (zoals SMOTE) zijn ontworpen voor homogene grafen. Wanneer deze direct worden toegepast op heterogene RDB-grafen, worden synthetische monsters gegenereerd die de complexe relationele structuren en rollen van de entiteiten negeren, wat leidt tot onbetrouwbare data en suboptimale prestaties.

Methodologie: Rel-MOSS

De auteurs stellen Rel-MOSS (Relation-centric Minority Synthetic Over-sampling GNN) voor, een architectuur die specifiek is ontworpen om deze uitdagingen aan te pakken door de relationele structuur centraal te stellen. Het model bestaat uit twee kernmodules:

1. Rel-Gate: Relation-wise Gating Controller

Deze module lost het probleem van informatie-instorting op. In plaats van alle burenberichten gelijk te wegen, schat Rel-Gate per relatie-type de waarschijnlijkheid dat de informatie neigt naar de minderheidsklasse.

Werking: Het gebruikt een mechanisme vergelijkbaar met attention (Query, Key, Value) om een "gating factor" ( $\Psi_{e,r}$ ) te berekenen voor elke relatie $r$ van een entiteit $e$ .
Doel: Berichten die relevant zijn voor de minderheidsklasse worden versterkt, terwijl berichten van de dominante meerderheidsklasse worden gedempt. Dit zorgt ervoor dat de representaties van minderheids- en meerderheidsentiteiten beter van elkaar te onderscheiden zijn.

2. Rel-Syn: Relation-guided Minority Synthesizer

Deze module lost het probleem van onbetrouwbare synthetische data op door oversampling te combineren met relationele consistentie.

Relationele Signatures: In plaats van alleen te kijken naar entiteitskenmerken, definieert Rel-Syn een "relationele signature" ( $S_e$ ) voor elke entiteit. Dit omvat structurele statistieken zoals de histogrammen van 1-hop en 2-hop buren en de verdeling van inkomende/uitgaande relaties.
Synthese: Bij het genereren van synthetische minderheidsmonsters wordt niet alleen gekeken naar de afstand in de vectorruimte van de entiteiten, maar ook naar de afstand in hun relationele signatures. De synthese gebeurt via interpolatie tussen een bestaand minderheidsmonster en zijn naaste buur, waarbij zowel de entiteitsrepresentatie als de relationele signature worden geïnterpoleerd.
Doel: Dit garandeert dat de gegenereerde monsters niet alleen statistisch correct zijn, maar ook de lokale structurele rol van de oorspronkelijke minderheidsentiteiten behouden.

Optimalisatie

Het totale verliesfunctie van Rel-MOSS bestaat uit twee delen:

Classificatieverlies (BCE): Voor het voorspellen van de klasse van zowel originele als synthetische monsters.
Reconstructieverlies (MSE): Om ervoor te zorgen dat de relationele signatures van de synthetische monsters consistent blijven met de structuur van de graf.

Belangrijkste Bijdragen

Eerste Onderzoek naar RDB-Imbalans: Het is het eerste werk dat zich specifiek richt op het class imbalance-probleem bij entiteitsclassificatie in relationele databases, een domein dat eerder werd verwaarloosd.
Nieuwe Architectuur (Rel-MOSS): Introductie van een model dat relationele structuren expliciet gebruikt om zowel de message-passing (via Rel-Gate) als de data-augmentatie (via Rel-Syn) te sturen.
Theoretische Onderbouwing: De auteurs bewijzen wiskundig dat standaard message-passing leidt tot een exponentiële afname van het minderheidsdiscriminatiesignaal en dat het behoud van relationele signatures essentieel is voor betrouwbare synthese.

Resultaten

De auteurs hebben Rel-MOSS getest op 12 entiteitsclassificatie-datasets uit de RelBench benchmark (afkomstig uit domeinen zoals Formule 1, e-commerce, en Q&A-platforms).

Prestatieverbetering: Rel-MOSS overtreft zowel state-of-the-art RDL-methoden (zoals RDL-HGT, RelGNN) als klassieke methoden voor class imbalance (zoals SMOTE, GraphSMOTE, Focal Loss).
Metingen: Er werd een gemiddelde verbetering van 2,46% in Balanced Accuracy (B-Acc) en 4,00% in G-Mean bereikt ten opzichte van de beste baselines.
Kwalitatieve Analyse:
- Visualisaties tonen aan dat Rel-Gate de afstand tussen de centroiden van minderheids- en meerderheidsklassen vergroot, waardoor ze beter te onderscheiden zijn.
- Synthetische monsters gegenereerd door Rel-Syn volgen de ware manifold van de minderheidsklasse veel nauwkeuriger dan die van SMOTE of GraphSMOTE, die vaak van de ware verdeling afwijken.
Robuustheid: Het model presteert goed op zowel sterk onbalans datasets als op datasets met een minder extreme onbalans, zonder de prestaties op de meerderheidsklasse te schaden.

Betekenis en Impact

Deze studie is van groot belang voor de betrouwbaarheid van relationeel deep learning in de praktijk.

Praktische Toepassingen: In sectoren zoals fraude-opsporing, medische trials en klantbehoud zijn het vaak de zeldzame (minderheids)gevallen die de meeste impact hebben. Rel-MOSS zorgt ervoor dat deze kritieke patronen niet worden genegeerd door het model.
Ethische Implicatie: Door de ondervertegenwoordiging van minderheidsklassen aan te pakken, vermindert het model algoritmische bias en voorkomt het dat systemen systematisch fouten maken bij het detecteren van zeldzame maar belangrijke gebeurtenissen.
Schaalbaarheid: Ondanks de toegevoegde complexiteit (gating en zoekprocessen) blijft de rekentijd van Rel-MOSS vergelijkbaar met standaard RDL-pipelines, wat het geschikt maakt voor real-world implementatie.

Kortom, Rel-MOSS vult een kritieke leemte in de literatuur door een oplossing te bieden die de complexe relationele aard van databases respecteert terwijl het effectief omgaat met de veelvoorkomende uitdaging van onbalans in de data.