GNN-as-Judge: Unleashing the Power of LLMs for Graph Learning with GNN Feedback

Each language version is independently generated for its own context, not a direct translation.

🌐 Le Problème : L'Expert qui ne voit que le texte

Imaginez que vous avez un Grand Livre de la Connaissance (c'est le modèle de langage, ou LLM, comme ChatGPT). Ce livre est incroyable : il comprend le sens des mots, les nuances des phrases et peut répondre à presque n'importe quelle question.

Maintenant, imaginez que vous avez un Réseau de Citoyens (c'est le graphe, où chaque personne est un nœud et chaque amitié est un lien). Dans ce réseau, certaines personnes sont étiquetées (on sait qui elles sont), mais la grande majorité sont des inconnus.

Le problème, c'est que le Grand Livre est un peu aveugle aux relations sociales. Il peut lire le CV d'une personne (le texte), mais il ne voit pas qui sont ses amis, ni comment l'opinion d'un ami influence l'autre. Si on lui demande de deviner qui est qui dans un réseau où il y a très peu d'étiquettes (peu de données), il va souvent se tromper ou halluciner.

🤖 La Solution : "GNN-as-Judge" (Le Juge Graphique)

Les auteurs proposent une nouvelle méthode appelée GNN-as-Judge. L'idée est de faire travailler ensemble deux experts très différents pour s'entraider :

L'Expert Texte (LLM) : Il est brillant pour comprendre le contenu des documents.
L'Expert Réseau (GNN) : C'est un détective qui ne lit pas les mots, mais qui observe les liens, les voisinages et la structure du réseau. Il sait qui influence qui.

🎭 Comment ça marche ? (L'Analogie du Jury)

Voici les trois étapes clés de leur méthode, expliquées avec des métaphores :

1. Choisir les bons candidats (La Sélection)

Avant de demander au Grand Livre de deviner qui est qui, on ne peut pas lui poser la question à tout le monde (ce serait trop long et coûteux).

L'astuce : On utilise le Détective (GNN) pour repérer les personnes les plus "influencées" par ceux qu'on connaît déjà.
L'image : Imaginez que vous voulez deviner le métier d'un inconnu. Vous ne demandez pas à tout le village, mais vous choisissez ceux qui sont assis à la même table que vos amis. Le GNN identifie ces "tables" stratégiques.

2. Le Juge et le Débat (L'Accord et le Désaccord)

Une fois les candidats choisis, on demande à l'Expert Texte (LLM) et au Détective (GNN) de donner leur avis.

Le Cas "Facile" (Accord) : Si les deux disent "C'est un médecin", c'est une excellente information. On est sûr à 99 %. On note cela comme une vérité.
Le Cas "Difficile" (Désaccord) : C'est là que c'est intéressant. Si le Texte dit "C'est un avocat" mais que le Détecte dit "Non, c'est un médecin", qui a raison ?
- Dans ce cas, le Détective (GNN) fait office de Juge. Comme il voit les liens, il est souvent plus fiable sur les cas complexes où le texte seul peut tromper.
- Le Juge dit : "Je suis très sûr de ma réponse, donc je vais corriger l'Expert Texte".

3. L'Entraînement Intelligent (Le Finesse)

Maintenant, on veut apprendre à l'Expert Texte à être plus fort.

Pour les cas où ils sont d'accord, on lui dit : "Bravo, continue comme ça !" (C'est l'apprentissage par instruction).
Pour les cas où ils sont en désaccord, on ne lui dit pas juste "Tu as tort". On lui dit : "Regarde, le Juge (GNN) pense ceci, et toi tu pensais cela. Apprends à préférer l'avis du Juge dans ce contexte."
C'est comme un coach sportif qui ne se contente pas de corriger la posture, mais qui explique pourquoi une position est meilleure qu'une autre, même si l'athlète était confiant au début.

🏆 Pourquoi c'est génial ?

Moins de données nécessaires : Cette méthode fonctionne très bien même quand on a très peu d'exemples étiquetés (le "few-shot learning"). C'est comme apprendre à conduire avec seulement 3 heures de cours au lieu de 30.
Moins d'erreurs : En utilisant le Juge (GNN) pour filtrer les erreurs, on évite que le Grand Livre (LLM) apprenne de mauvaises informations (ce qu'on appelle le "bruit").
Meilleure performance : Les tests montrent que cette équipe mixte (Texte + Réseau) bat largement les méthodes qui utilisent soit le texte seul, soit le réseau seul.

En résumé

GNN-as-Judge, c'est comme organiser un débat entre un Professeur de Littérature (qui connaît les mots) et un Sociologue (qui connaît les gens).
Quand ils sont d'accord, on note la réponse. Quand ils se disputent, le Sociologue utilise sa connaissance des relations pour trancher, et le Professeur apprend de cette correction. Résultat : un système d'intelligence artificielle qui comprend à la fois ce que disent les gens et comment ils sont connectés, même avec très peu d'informations au départ.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Le papier s'attaque au défi de l'apprentissage semi-supervisé à peu d'exemples (few-shot) sur des graphes attributés en texte (TAGs). Dans ce contexte, les nœuds sont des documents textuels et les arêtes représentent leurs relations.

Limites des LLMs seuls : Bien que les Grands Modèles de Langage (LLMs) excellent dans la compréhension sémantique du texte, ils manquent de mécanismes de passage de messages pour exploiter la structure du graphe. Dans des scénarios à ressources limitées (peu de nœuds étiquetés), le fine-tuning des LLMs est difficile car il nécessite beaucoup de données étiquetées pour éviter le surapprentissage (overfitting).
Limites des méthodes existantes : Les approches actuelles de "LLM-as-Predictors" reposent souvent sur des étiquettes pseudo-générées par le LLM lui-même. Cela pose deux problèmes majeurs :
1. Sélection d'étiquettes : Il est difficile de générer des étiquettes pseudo-fiables, car les LLMs ont du mal à interpréter les motifs structurels complexes et peuvent souffrir d'hallucinations ou de biais.
2. Bruit d'étiquetage : L'utilisation d'étiquettes pseudo "difficiles" (hard samples) pour l'apprentissage apporte plus d'information mais introduit un bruit important qui dégrade les performances lors du fine-tuning.

2. Méthodologie : GNN-as-Judge

Les auteurs proposent un cadre novateur nommé GNN-as-Judge. L'idée centrale est d'utiliser un Réseau de Neurones Graphiques (GNN), qui possède un biais inductif structurel, comme "juge" pour guider et valider les prédictions du LLM.

Le framework se décompose en trois étapes clés :

A. Sélection de nœuds guidée par l'influence

Pour éviter le coût computationnel d'une pseudo-étiquetage sur l'ensemble non étiqueté, le système sélectionne d'abord un sous-ensemble de nœuds les plus informatifs.

Principe : Utilisation d'une métrique d'influence de nœud ( $I_{v_i, v_j}$ ) basée sur la propagation des représentations dans le GNN. Les nœuds non étiquetés les plus influencés par les nœuds étiquetés (via la structure du graphe) sont sélectionnés.
Théorie : Un théorème démontre que cette influence décroît avec la distance et fournit une borne supérieure calculable, permettant de classer les nœuds par pertinence.

B. Sélection collaborative d'étiquettes pseudo (Accord vs Désaccord)

Une fois le sous-ensemble sélectionné, le GNN et le LLM génèrent des prédictions. Les nœuds sont divisés en deux ensembles :

Ensemble d'accord ( $V_{agreed}$ ) : Nœuds où le GNN et le LLM s'accordent.
- Hypothèse : Un accord entre deux modèles aux biais inductifs différents (texte vs structure) indique une haute fiabilité.
- Théorie : Un théorème prouve que la précision de cet ensemble est strictement supérieure à celle de chaque modèle individuel.
Ensemble de désaccord ( $V_{disagreed}$ ) : Nœuds où les modèles divergent.
- Stratégie : Le GNN agit comme juge. Un score de préférence est calculé : $S_{pref} = P_{GNN}(\hat{y}_{GNN}) - P_{GNN}(\hat{y}_{LLM})$ . Seuls les nœuds où le GNN montre une forte conviction en sa propre prédiction sont retenus.
- Objectif : Ces nœuds "difficiles" sont riches en information mais bruyants ; le filtre du GNN permet de sélectionner les plus fiables.

C. Algorithme de Fine-Tuning Faiblement Supervisé

Pour entraîner le LLM sur ces données, les auteurs proposent une fonction de perte unifiée combinant deux types de tuning :

Instruction Tuning (sur l'ensemble d'accord) : Apprentissage supervisé standard pour consolider les connaissances sur les exemples fiables.
Preference Tuning (sur l'ensemble de désaccord) : Au lieu d'apprendre directement l'étiquette (qui peut être bruitée), le LLM apprend une préférence relative. Le GNN fournit la réponse "préférée" ( $y_w$ $y_{w}$ ) et le LLM sa propre réponse "dépréférée" ( $y_l$ $y_{l}$ ).
- Implémentation : Utilisation de ORPO (Odds Ratio Preference Optimization) pour minimiser la perte de préférence, permettant au LLM d'apprendre à préférer la prédiction structurellement cohérente du GNN sans surajuster au bruit.

3. Contributions Clés

Cadre GNN-as-Judge : Une nouvelle approche qui positionne le GNN non pas comme un prédicteur concurrent, mais comme un juge pour sélectionner et valider les étiquettes pseudo-générées par le LLM.
Stratégie de sélection hybride : Identification simultanée d'exemples "faciles" (accord) et "difficiles" (désaccord filtré par le GNN), résolvant le compromis entre signal d'apprentissage et bruit d'étiquetage.
Algorithme de fine-tuning robuste : Une méthode unifiant instruction tuning et preference tuning pour distiller les connaissances tout en atténuant le bruit des étiquettes pseudo.
Validation théorique et empirique : Preuves théoriques sur la fiabilité des ensembles d'accord et démonstration empirique sur plusieurs benchmarks.

4. Résultats Expérimentaux

Les expériences ont été menées sur cinq jeux de données (Cora, Citeseer, Pubmed, ogbn-arxiv, ogbn-products) dans des configurations 3-shot, 5-shot et 10-shot.

Performance Supérieure : GNN-as-Judge surpasse systématiquement les méthodes de base, y compris les GNN classiques (GCN, SGC), les LLMs seuls (Zero-shot, Chain-of-Thought) et les méthodes hybrides récentes (GLEM, TAPE, LLaGA, GraphGPT).
Robustesse en Low-Resource : L'amélioration est particulièrement marquée dans les scénarios extrêmes (3-shot), où la méthode maintient des performances élevées là où les autres échouent ou surajustent.
Généralisation Zero-Shot : Le modèle montre une capacité de transfert exceptionnelle vers de nouveaux graphes (ex: entraînement sur ogbn-arxiv, test sur Cora), surpassant largement les méthodes basées sur l'encodage de la structure en tokens.
Analyse d'ablation :
- L'élimination des étiquettes pseudo fait chuter les performances.
- L'élimination de l'ensemble de désaccord réduit la capacité d'apprentissage sur les cas difficiles.
- Le remplacement du tuning préférentiel par un tuning standard dégrade les performances, confirmant l'importance de la gestion du bruit.

5. Signification et Impact

Ce travail est significatif car il comble le fossé entre la puissance sémantique des LLMs et la capacité structurelle des GNNs dans des régimes de données rares.

Changement de paradigme : Il démontre que dans les tâches graphiques, le GNN peut servir de "référence de vérité" structurelle pour guider les LLMs, plutôt que l'inverse.
Applicabilité pratique : La méthode est particulièrement pertinente pour les applications réelles (réseaux sociaux, citations, e-commerce) où les données étiquetées sont coûteuses à obtenir mais où la structure du graphe est disponible.
Efficacité : En utilisant le GNN comme filtre, la méthode permet d'exploiter les nœuds "difficiles" sans subir les pénalités du bruit d'étiquetage, offrant une voie nouvelle pour l'alignement des préférences des LLMs sur des tâches structurées.

En résumé, GNN-as-Judge transforme la faiblesse des LLMs sur la structure en une opportunité en utilisant le GNN comme un mécanisme de contrôle qualité, permettant ainsi un apprentissage semi-supervisé robuste et efficace sur les graphes textuels.