Instruction set for the representation of graphs

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een complexe stad wilt beschrijven aan iemand die er nog nooit is geweest. Je hebt twee opties:

Je geeft ze een gigantische, vierkante kaart waar elke straat en elk gebouw met een stipje is aangegeven. Dit is de adjacentiematrix (de huidige standaard in de computerwereld). Het probleem? Als de stad groeit, wordt die kaart onhandig groot, en als je de straten in een andere volgorde opschrijft, ziet de kaart er totaal anders uit, terwijl het dezelfde stad is.
Je geeft ze een reisgids met een reeks instructies: "Ga twee straten rechtdoor, bouw een huis, draai links, bouw een brug." Dit is wat dit nieuwe papier, IsalGraph, voorstelt.

Hier is een uitleg van het onderzoek in simpele taal, met een paar creatieve vergelijkingen.

1. Het Probleem: De "Vaste Kaart" vs. De "Reisgids"

Vroeger beschreven computers netwerken (zoals sociale media, moleculen of stroomnetwerken) met een enorme vierkante tabel. Dit werkt goed voor rekenmachines, maar is slecht voor moderne kunstmatige intelligentie (zoals de chatbots die je nu gebruikt). Die AI's zijn namelijk gewend om met tekst en verhalen te werken, niet met statische tabellen.

De auteurs van dit papier zeggen: "Laten we netwerken niet als een kaart beschrijven, maar als een stap-voor-stap recept."

2. De Oplossing: IsalGraph (Het "Bouwmeester-Script")

Het team heeft een nieuw systeem bedacht dat een grafiek (een netwerk van punten en lijnen) omzet in een korte reeks letters. Denk aan een bouwmeester die een modelstad bouwt met een magische robot.

De robot heeft drie dingen nodig:

Een bouwwerk (de stad die groeit).
Een ronddraaiende lijst (een cirkelvormige trein van stations waar de robot langs kan rijden).
Twee wijzers (twee vingers die op de trein wijzen).

De robot kent slechts 9 commando's (letters):

N/P/n/p: Rijd vooruit of achteruit op de trein.
V/v: Bouw een nieuw station (een punt) en verbind het met het station waar je nu bent.
C/c: Leg een brug (een lijn) tussen het station waar je wijzer 1 staat en waar wijzer 2 staat.
W: Doe niets (een pauze).

Het mooie hieraan: Elke willekeurige reeks van deze letters is geldig. Als je de robot een onzin-zinnetje geeft, bouwt hij gewoon een gekke, maar bestaande stad. Er zijn geen "foutieve" instructies. Dit maakt het heel makkelijk voor een AI om zoiets te leren genereren.

3. De "Reisgids" maken (Van Stad naar Tekst)

Hoe zet je een bestaande stad om in zo'n reeks letters?
Stel je voor dat je een stad bezoekt en een verslag schrijft. Je begint bij een willekeurig punt.

Je loopt naar een nieuw punt dat je nog niet hebt gezien -> Schrijf "Bouw een huis" (V).
Je loopt naar een punt dat al bestaat en legt een brug -> Schrijf "Leg brug" (C).
Om bij het volgende punt te komen, moet je een stukje lopen -> Schrijf "Rijd vooruit" (N).

Het algoritme in het papier is slim: het probeert steeds de kortste route te kiezen om de volgende bouwstap te doen, zodat de tekst zo kort mogelijk blijft.

4. Het "Gouden Exemplaar" (Canonieke Strings)

Er is een klein probleem: Als je een stad bezoekt en begint bij het station "Centraal", krijg je een andere tekst dan als je begint bij "Zuid". Maar de stad is hetzelfde!
Om dit op te lossen, proberen ze elke mogelijke startplek en elke mogelijke volgorde van bezoeken. Ze kiezen dan de aller-kortste en alfabetisch "eerste" tekst als het officiële, unieke ID van die stad.

Vergelijking: Het is alsof je een boek wilt samenvatten. Je schrijft het verhaal op, maar je probeert het ook te vertellen vanuit het perspectief van elke hoofdpersoon. Uiteindelijk kies je het verhaal dat het kortst en duidelijkst is. Als twee mensen precies hetzelfde verhaal krijgen, weten ze dat ze over dezelfde stad praten, zelfs als de namen van de straten anders zijn.

5. Waarom is dit geweldig? (De "Gelijkenis"-Test)

De auteurs hebben getest of deze "tekst-reisgidsen" goed werken om te zien hoe op elkaar lijken twee steden.

Als je in een stad één brug toevoegt, verandert de tekst heel weinig (misschien één lettertje).
Als je een hele wijk toevoegt, verandert de tekst meer.

Ze hebben bewezen dat de afstand tussen twee teksten (hoeveel letters je moet veranderen om de ene tekst in de andere te krijgen) sterk correleert met de echte structurele afstand tussen de steden.

Praktisch nut: Je kunt nu zoeken naar "soortgelijke" netwerken (bijvoorbeeld nieuwe medicijnen of sociale netwerken) door gewoon te zoeken op tekst, net zoals je Google gebruikt om webpagina's te vinden. Dit is veel sneller dan de oude, zware wiskundige methoden.

Samenvatting in één zin

IsalGraph is een slimme manier om complexe netwerken om te zetten in een korte, unieke "bouw-instructie" die elke computer (en zelfs een chatbot) kan lezen, begrijpen en vergelijken, zonder dat de volgorde van de onderdelen er toe doet.

Waarom dit belangrijk is:
Het maakt het mogelijk om de kracht van moderne taal-AI's (zoals Large Language Models) toe te passen op complexe data zoals moleculen, sociale netwerken en stroomnetwerken, iets dat tot nu toe erg moeilijk was.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Instruction Set for the Representation of Graphs" (IsalGraph), geschreven in het Nederlands.

Titel: Instruction Set for the Representation of Graphs (IsalGraph)

Auteurs: Ezequiel López-Rubio en Mario Pascual-González (Universiteit van Málaga)
Datum: 12 maart 2026

1. Het Probleem

Graphs (netwerken) zijn fundamenteel voor veel toepassingen, zoals moleculaire chemie, sociale netwerken en kennisbases. De huidige standaard voor het representeren van grafen is de adjacentiematrix. Deze methode heeft echter drie belangrijke beperkingen:

Ruimte-efficiëntie: De matrix vereist $O(N^2)$ ruimte, ongeacht hoe spaarzaam (sparsely) de graf is.
Sequentialiteit: Adjacentiematrices zijn tweedimensionaal en kunnen niet direct worden verwerkt door sequentiële modellen zoals Recurrent Neural Networks (RNNs) of Transformers (de basis van moderne Large Language Models).
Permutatie-invariantie: De betekenis van de matrix hangt af van de willekeurige volgorde van de knopen. Twee isomorfe grafen (dezelfde structuur, andere knoopnummers) hebben verschillende matrices, wat het leren van structurele patronen bemoeilijkt.

Er is behoefte aan een compacte, omkeerbare, structureel behoudende en canoniek maakbare sequentiële codering die compatibel is met taalmodellen.

2. Methodologie: IsalGraph

Het paper introduceert IsalGraph, een methode om de structuur van elke eindige, eenvoudige graf te coderen als een compacte string over een alfabet van negen instructies.

De Virtuele Machine

De decodering wordt uitgevoerd door een kleine virtuele machine die drie componenten beheert:

De Graf ( $G$ ): Wordt incrementeel opgebouwd.
Een Circulaire Dubbel-gekoppelde Lijst (CDLL): Bevat verwijzingen naar de grafknopen.
Twee Traversie-pijlers ( $\pi_1, \pi_2$ ): Een primaire en een secundaire pointer die door de CDLL bewegen.

Het Instructiealfabet ( $\Sigma$ )

De string bestaat uit negen instructies:

Navigatie: N/P (primair vooruit/achteruit), n/p (secundair vooruit/achteruit).
Knopen invoegen: V (voeg knoop toe via primaire pointer), v (via secundaire pointer).
Randen invoegen: C (rand van primair naar secundair), c (secundair naar primair; relevant voor gerichte grafen).
Geen-op: W.

Belangrijkste eigenschap: Elke mogelijke string over dit alfabet decodeert naar een geldige graf. Er zijn geen "ongeldige" toestanden.

Algoritmen

StringToGraph (S2G): Een deterministisch algoritme dat een instructiestring uitvoert om de graf te reconstrueren.
GraphToString (G2S): Een algoritme dat een graf omzet in een string.
- Greedy-versie: Kiest op elke stap de goedkoopste pointerbeweging om een nuttige structuur (knoop of rand) toe te voegen.
- Canonieke versie: Om een unieke representatie te krijgen voor isomorfe grafen, wordt een exhaustive backtracking-methode gebruikt. Deze verkent alle startknopen en alle geldige traversie-volgorde en kiest de lexicografisch kleinste kortste string ( $w^*_G$ ).

3. Belangrijkste Bijdragen

Universele Validiteit: Elk tekenreeks is geldig. Dit vereenvoudigt generatieve modellen aanzienlijk omdat er geen validatie nodig is tijdens het genereren.
Omkeerbaarheid: De greedy G2S-algoritme garandeert dat elke verbonden graf kan worden gecodeerd en exact kan worden gedecodeerd (100% succesrate in tests).
Canonieke Invariantie (Gevorderde Hypothese): De auteurs conjectureren dat de canonieke string $w^*_G$ een volledige graf-invariant is: $G \cong H \iff w^*_G = w^*_H$ . Dit werd empirisch ondersteund met 100% nauwkeurigheid op 71 paren van isomorfe en niet-isomorfe grafen.
Metrische Localiteit: De Levenshtein-afstand tussen IsalGraph-strings correleert sterk met de Graph Edit Distance (GED). Dit betekent dat kleine structurele wijzigingen in de graf leiden tot kleine wijzigingen in de string (en vice versa, hoewel de relatie asymmetrisch is).

4. Resultaten en Evaluatie

De auteurs hebben IsalGraph getest op vijf real-world datasets (IAM Letter, LINUX, AIDS) en synthetische grafen.

Correlatie met Graph Edit Distance (GED)

Er is een sterke positieve correlatie gevonden tussen de Levenshtein-afstand van de strings en de echte GED.
IAM Letter (spaarzame grafen): De canonieke methode bereikte een Spearman-correlatie ( $\rho$ ) van 0.934.
LINUX en AIDS (dichtere grafen): De correlatie daalde (bijv. 0.349 voor AIDS), wat logisch is omdat de lineaire traversie van de G2S-algoritme minder effectief is bij zeer dichte netwerken.
Conclusie: De string-afstand fungeert als een efficiënte proxy voor de dure GED-berekening.

Complexiteit en Snelheid

Tijdscomplexiteit:
- Greedy-rnd: $O(n^{3.1})$ (polynomiële schaling).
- Greedy-min: $O(n^{4.5})$ .
- Canoniek: $O(n^{9.0})$ (super-polynomiële schaling door exhaustive backtracking).
Beperking: De canonieke methode wordt onpraktisch voor grafen met meer dan ongeveer 12 knopen binnen een redelijke tijdslimiet.
Snelheidswinst: Het berekenen van de Levenshtein-afstand tussen strings is exponentieel sneller dan het exact berekenen van de GED, wat het ideaal maakt voor zoekopdrachten in grote grafendatabases.

Localiteit en Asymmetrie

Kleine wijzigingen in de string leiden altijd tot kleine structurele wijzigingen in de graf (GED 1 of 2).
Echter, een kleine structurele wijziging in de graf kan leiden tot een grote verandering in de string (omdat de optimale traversie-volgorde kan verschuiven). Dit maakt de methode conservatief: het neigt tot "recall" (het vinden van vergelijkbare grafen) ten koste van "precision".

5. Betekenis en Toepassingen

IsalGraph biedt een brug tussen grafentheorie en moderne taalmodellen (LLMs).

Graph Similarity Search: Door de snelle Levenshtein-berekening kunnen grote grafendatabases snel worden doorzocht op vergelijkbare structuren zonder de NP-hard GED te hoeven berekenen.
Graph Generation: Omdat elke string een geldige graf oplevert, kunnen taalmodellen direct grafen genereren zonder dat er complexe validatiestappen nodig zijn.
Graph-Conditioned Modelling: Het stelt onderzoekers in staat om grafen te behandelen als sequenties, waardoor technieken uit NLP (Natural Language Processing) direct toepasbaar zijn op grafdata.

Samenvattend: IsalGraph is een compacte, isomorfisme-invariante en taalmodel-vriendelijke representatie die de kloof tussen de discrete structuur van grafen en de sequentiële aard van moderne deep learning-modellen overbrugt, met name voor toepassingen waarbij snelheid en generativiteit cruciaal zijn.