GNN-as-Judge: Unleashing the Power of LLMs for Graph Learning with GNN Feedback

Each language version is independently generated for its own context, not a direct translation.

🎓 De Probleemstelling: De Slimme Verteller en de Kaartlezer

Stel je voor dat je een enorme bibliotheek hebt (een grafiek of graph), waar elk boek een node is en de lijntjes tussen de boeken aangeven wie elkaar citeert of raadt. De uitdaging is om te weten welke boeken bij welk onderwerp horen (bijv. "Wiskunde" of "Geschiedenis").

Het probleem is: we hebben maar heel weinig boeken met een duidelijk label (een label). We hebben misschien maar 3 tot 10 boeken per categorie die we zeker weten wat ze zijn. De rest is een mysterie.

De LLM (Large Language Model): Dit is de super-slimme verteller. Hij heeft miljoenen boeken gelezen en begrijpt de tekst perfect. Als je hem een boektitel en abstract geeft, kan hij vaak raden waar het over gaat. Maar hij heeft een zwak punt: hij kijkt niet naar de kaarten (de structuur). Hij ziet niet dat boek A en boek B naast elkaar in dezelfde hoek van de bibliotheek staan, wat suggereert dat ze hetzelfde onderwerp hebben.
De GNN (Graph Neural Network): Dit is de ervaren kaartlezer. Hij kijkt niet zo goed naar de tekst, maar hij ziet perfect hoe de boeken met elkaar verbonden zijn. Als boek A en B verbonden zijn, denkt hij: "Ze horen bij elkaar." Maar hij mist de nuance van de tekst.

Het dilemma:
Als we de "Verteller" (LLM) alleen laten werken, maakt hij fouten omdat hij de structuur mist. Als we de "Kaartlezer" (GNN) alleen laten werken, mist hij de betekenis van de tekst. En als we proberen de Verteller te trainen met de Kaartlezer, is dat lastig: de Kaartlezer is niet altijd 100% betrouwbaar, en de Verteller is soms te zelfverzekerd.

🧠 De Oplossing: GNN-as-Judge (De GNN als Rechter)

De auteurs van dit paper hebben een slimme manier bedacht om deze twee te laten samenwerken. Ze noemen het GNN-as-Judge.

Stel je een klaslokaal voor waar de LLM de leraar is die de antwoorden moet geven, maar hij is onzeker. De GNN is de Rechter die toekijkt en oordeelt.

Stap 1: De slimme selectie (Wie krijgt een kans?)

Niet elk boek in de bibliotheek is even belangrijk om te labelen. De Rechter (GNN) kijkt naar de structuur en zegt: "Hey, dit boek zit precies in het midden van een groep boeken die we al kennen. Als we dit boek labelen, helpt dat ons het meest."
Dit noemen ze Influence-Guided Selection. Ze kiezen niet willekeurig, maar de boeken die de meeste invloed hebben op de rest van de bibliotheek.

Stap 2: De Rechter doet zijn werk (Agreement vs. Disagreement)

Nu laten ze de LLM en de GNN allebei een gok doen over de boeken die ze hebben geselecteerd. Er ontstaan twee groepen:

De "Eenvoudige" Groep (Agreement): De LLM en de GNN zijn het eens.
- Vergelijking: De leraar en de rechter zeggen allebei: "Dit is een geschiedenisboek."
- Actie: Dit is een heel betrouwbaar label. Ze gebruiken dit om de LLM te belonen en te zeggen: "Goed zo, blijf zo doen!" (Dit heet Instruction Tuning).
De "Moeilijke" Groep (Disagreement): De LLM en de GNN zijn het oneens.
- Vergelijking: De LLM zegt: "Dit is een geschiedenisboek," maar de GNN zegt: "Nee, dit is een wiskundeboek, want het staat naast wiskundige boeken."
- Actie: Hier is het spannend. De LLM heeft hier waarschijnlijk een fout gemaakt. Maar in plaats van de LLM gewoon te corrigeren (wat verwarrend kan zijn), gebruiken ze een slimme truc. Ze zeggen tegen de LLM: "Kijk, de GNN denkt dat het wiskunde is, en jij denkt geschiedenis. De GNN heeft hier een sterker vertrouwen in zijn antwoord. Kies de optie van de GNN."
- Dit noemen ze Preference Tuning. De LLM leert niet alleen wat het juiste antwoord is, maar leert waarom het antwoord van de GNN in dit geval beter is dan het zijne.

🛠️ Waarom werkt dit zo goed?

In het verleden probeerden mensen alleen de "makkelijke" antwoorden van de LLM te gebruiken. Maar dat is saai; de LLM leert daar niet veel van. Of ze probeerden de "moeilijke" antwoorden te gebruiken, maar dan was de kans groot dat de LLM de fouten van de GNN overnam.

GNN-as-Judge is als een slimme coach die:

De makkelijke vragen gebruikt om het vertrouwen van de speler te versterken.
De moeilijke vragen (waar ze het oneens over zijn) gebruikt om de speler te leren hoe hij moet denken, niet alleen wat het antwoord is. De GNN fungeert hier als een betrouwbare "tweede mening" die de LLM helpt zijn eigen fouten te zien.

🏆 Het Resultaat

De tests tonen aan dat deze methode veel beter werkt dan oude methoden, vooral als er heel weinig gelabelde data is (de "low-resource" situatie).

Vergelijking: Stel je voor dat je een taal moet leren met maar 5 woorden.
- Oude methode: Je probeert die 5 woorden te memoriseren en raadt de rest. Je maakt veel fouten.
- GNN-as-Judge: Je hebt een vriend (de GNN) die de taalstructuur kent. Hij zegt: "Als je dit woord gebruikt, klinkt het alsof je hier staat." Jij (de LLM) leert van die hints en wordt snel een meester in de taal, zelfs met weinig oefenmateriaal.

Kortom: GNN-as-Judge combineert de tekst-kennis van een AI met de structuur-kennis van een grafiek-model, waarbij de structuur-model fungeert als een eerlijke rechter die de AI helpt om slimmer te worden, zelfs als er weinig voorbeelden zijn.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Het paper adresseert de uitdaging van few-shot semi-supervised learning op Text-Attributed Graphs (TAGs). TAGs zijn netwerken waarbij knopen tekstuele documenten vertegenwoordigen (bijv. wetenschappelijke papers of producten) en randen hun relaties aangeven.

Hoewel Large Language Models (LLMs) uitstekend zijn in het begrijpen van tekstuele features, blijken ze beperkt in lage-resource scenario's (weinig gelabelde data) om de volgende redenen:

Gebrek aan structurele inductieve bias: LLMs missen het vermogen van Graph Neural Networks (GNNs) om informatie te propageren via het graafnetwerk. Ze kunnen de invloed van gelabelde knopen op ongelabelde knopen moeilijk modelleren.
Problemen met pseudo-labeling: Bestaande methoden vertrouwen vaak op "gemakkelijke" pseudo-labels (hoge confidentie), die weinig leerkracht bieden. "Moeilijke" samples zijn informatiever maar introduceren meer labelruis (noise). Het selecteren van betrouwbare pseudo-labels zonder voldoende gelabelde data is een groot obstakel.
Overfitting: Het direct fine-tunen van LLMs met ruisrijke pseudo-labels leidt vaak tot degradatie van de prestaties.

Methodologie: GNN-as-Judge

De auteurs stellen GNN-as-Judge voor, een nieuw raamwerk dat de sterke punten van LLMs (semantisch begrip) en GNNs (structurele inductieve bias) combineert. Het raamwerk bestaat uit drie kerncomponenten:

1. Invloed-gestuurde knoopselectie (Influence-Guided Node Selection)

Om computationele kosten te beperken en de kwaliteit van pseudo-labels te maximaliseren, wordt niet de hele set ongelabelde knopen gebruikt. In plaats daarvan selecteert het model een subset van knopen die de meest invloedrijke zijn op basis van de graafstructuur.

Er wordt gebruikgemaakt van een knoopinvloed-maatstaf ( $I_{v_i, v_j}$ ), gedefinieerd als de Jacobiaan van de representatie van een ongelabelde knoop $v_j$ met betrekking tot een gelabelde knoop $v_i$ .
Knoopjes met de hoogste invloedsscore (dichtbij gelabelde knopen in de graaf) worden geselecteerd voor pseudo-labeling.

2. Collaboratieve Pseudo-label Selectie (Agreement & Disagreement)

Het model gebruikt zowel een GNN als een LLM om voorspellingen te doen op de geselecteerde knopen. De knopen worden vervolgens opgesplitst in twee sets:

Agreement Set (Eenvoudige samples): Knoopjes waar GNN en LLM het eens zijn. Theoretisch bewezen is dat deze set een hogere nauwkeurigheid heeft dan individuele modellen, omdat de fouten van de modellen (door verschillende inductieve biases) onafhankelijk zijn.
Disagreement Set (Moeilijke samples): Knoopjes waar de modellen het oneens zijn. In plaats van deze te negeren, fungeert de GNN als een "Judge". Omdat de GNN beter is in het benutten van lokale nabuurschapsinformatie, wordt de voorspelling van de GNN als de "preferente" (betrouwbare) label beschouwd voor deze moeilijke gevallen. Alleen knopen waarbij de GNN een hoge voorkeursscore heeft (groot verschil in waarschijnlijkheid tussen de GNN-voorspelling en de LLM-voorspelling) worden geselecteerd.

3. Weakly-Supervised Fine-Tuning Algorithm

Om de LLM te trainen op deze geselecteerde data en labelruis te mitigeren, wordt een uniek trainingsdoelwit gebruikt dat twee loss-functies combineert:

Instruction Tuning Loss ( $\mathcal{L}_{IT}$ ): Toegepast op de Agreement Set. Hier leert de LLM de consensus-labels direct (supervised learning).
Preference Tuning Loss ( $\mathcal{L}_{PT}$ ): Toegepast op de geselecteerde Disagreement Set. In plaats van de LLM direct een label te geven, wordt er Preference Optimization (bijv. ORPO) gebruikt. De GNN-voorspelling fungeert als de "preferred response" en de oorspronkelijke LLM-voorspelling als de "dispreferred response". Hierdoor leert de LLM de relatieve voorkeur van de GNN te volgen zonder dat absolute correctheid van de GNN vereist is, wat overfitting op ruis voorkomt.

De totale loss functie is:
$\mathcal{L}(\theta) = \mathbb{E}[\mathcal{L}_{IT}] + \lambda \mathbb{E}[\mathcal{L}_{PT}]$

Belangrijkste Bijdragen

Nieuw Probleemkader: Het paper definieert en lost het probleem op van LLMs als predictors voor few-shot semi-supervised learning op TAGs, waarbij de focus ligt op het selecteren van betrouwbare pseudo-labels en het mitigeren van ruis.
GNN-as-Judge Framework: Een innovatief raamwerk dat GNNs inzet als "rechters" om zowel gemakkelijke als moeilijke pseudo-labels te identificeren, waardoor de beperkingen van LLMs in het begrijpen van graafstructuren worden overwonnen.
Nieuw Trainingsalgoritme: Een weakly-supervised fine-tuning methode die instruction tuning combineert met preference tuning (gebaseerd op GNN-feedback) om effectief te leren van ruisrijke data.
Theoretische Onderbouwing: Het paper biedt theoretische bewijzen dat de agreement set een hogere nauwkeurigheid heeft dan individuele modellen en dat de invloed van knopen afneemt met de afstand in de graaf.

Resultaten

Experimenten zijn uitgevoerd op diverse benchmark datasets (Cora, Citeseer, Pubmed, ogbn-arxiv, ogbn-products) in verschillende shot-settings (3-shot, 5-shot, 10-shot).

Superieure Prestaties: GNN-as-Judge presteert significant beter dan traditionele GNN-methoden (zoals GCN, SGC) en state-of-the-art LLM-gebaseerde methoden (zoals LLaGA, GraphGPT, TAPE).
Robuustheid in Low-Resource: De prestatieverbetering is het grootst in extreme low-resource scenario's (3-shot en 5-shot), waar de methode consistent de beste resultaten behaalt.
Zero-Shot Generalisatie: Het model toont sterke zero-shot transfer capabilities naar nieuwe datasets zonder extra fine-tuning, wat aangeeft dat het de inherente generalisatiekracht van de LLM behoudt terwijl het graafinformatie integreert.
Ablatie Studies: Deze bevestigen dat zowel de pseudo-label selectie (vooral de disagreement set) als de weakly-supervised fine-tuning essentieel zijn voor de prestaties. Het verwijderen van de disagreement set of het vervangen van preference tuning door standaard instruction tuning leidt tot significante prestatieverlies.

Betekenis en Impact

GNN-as-Judge is een doorbraak in het veld van graph learning met LLMs. Het lost het fundamentele dilemma op van hoe LLMs effectief kunnen worden ingezet in situaties met weinig gelabelde data, waar ze normaal gesproken falen door gebrek aan structurele context.

Door GNNs niet als concurrent, maar als een complementair oordeelsorgaan te gebruiken, creëren de auteurs een synergie die:

De afhankelijkheid van grote hoeveelheden gelabelde data voor het fine-tunen van LLMs vermindert.
Een praktische oplossing biedt voor het probleem van labelruis in semi-supervised learning.
Een nieuwe richting opent voor het integreren van structurele inductieve bias in LLM-training via preference alignment, wat verder kan worden toegepast op andere domeinen waar ruwe data en structurele relaties samenkomen.

Het paper benadrukt dat voor tekst-gebaseerde graaftaken in de echte wereld (waar labels schaars en duur zijn), een hybride aanpak die de sterktes van zowel taalmodellen als graafmodellen combineert, noodzakelijk is voor state-of-the-art resultaten.