Actions Speak Louder than Prompts: A Large-Scale Study of LLMs for Graph Inference

Each language version is independently generated for its own context, not a direct translation.

🌐 Le Problème : Les IA et les Réseaux Sociaux

Imaginez que vous avez un super-intelligent (une IA comme ChatGPT) qui est excellent pour lire des livres, écrire des poèmes et comprendre les nuances du langage humain. Maintenant, imaginez que vous voulez lui demander de résoudre un mystère dans une immense ville connectée : un réseau social, un site de e-commerce ou un réseau de citations scientifiques.

Dans cette ville, chaque personne (ou produit) est un nœud, et leurs relations (amis, achats, citations) sont des routes (arêtes). Le but est de deviner la "profession" ou la "catégorie" de chaque personne en regardant ce qu'elle dit (son texte) et qui sont ses voisins.

Jusqu'à présent, on utilisait des outils spécialisés (des "GNN") pour ça, mais les chercheurs se demandaient : "Et si on utilisait notre super-intelligent pour faire ce travail ?"

Le problème ? Les IA sont comme des lecteurs voraces : elles peuvent lire beaucoup, mais elles ont une mémoire de travail limitée (une fenêtre de contexte). Si vous leur donnez trop d'informations d'un coup, elles s'essoufflent, oublient le début ou se trompent.

🛠️ Les Trois Manières de Parler à l'IA

Les chercheurs ont testé trois façons différentes de donner des indices à l'IA pour qu'elle résolve ce mystère :

Le "Prompting" (La Lettre d'Instructions) :
- L'analogie : C'est comme écrire une lettre géante à l'IA. Vous lui collez sous le nez : "Voici la personne, voici ses 100 voisins, voici ce qu'ils disent, et voici leurs amis. Devine sa profession !"
- Le problème : Si la ville est grande ou si les gens parlent beaucoup (textes longs), la lettre devient trop longue. L'IA ne peut pas tout lire. Elle est obligée de jeter des pages au milieu, ce qui la rend confuse. C'est comme essayer de boire l'océan avec une cuillère.
Le "GraphTool" (L'Enquêteur avec des Outils) :
- L'analogie : Ici, on donne à l'IA un carnet d'adresses et un téléphone. Elle peut dire : "Je veux voir les voisins de Paul", puis "Je veux lire le journal de Marie". Elle pose des questions une par une.
- L'avantage : Elle ne se noie pas dans l'information. Elle va chercher ce dont elle a besoin.
- Le bémol : C'est un peu lent et rigide. Elle doit suivre une liste d'outils prédéfinie (comme un menu de restaurant).
Le "Graph-as-Code" (L'Architecte qui Écrit du Code) :
- L'analogie : C'est la méthode gagnante. Au lieu de donner des instructions ou de poser des questions, on dit à l'IA : "Voici la carte de la ville et les données. Écris-toi un petit programme pour analyser ça, puis exécute-le."
- Pourquoi ça marche ? L'IA devient un chef d'orchestre. Elle écrit un script précis qui va chercher exactement les infos nécessaires, les combine intelligemment, et ignore le bruit. C'est comme si elle avait une clé magique pour ouvrir uniquement les portes dont elle a besoin, sans avoir à tout ouvrir en même temps.

🔍 Ce que la recherche a découvert (Les Grandes Révélations)

Les chercheurs ont testé ces méthodes sur des milliers de cas (des réseaux de citations, d'e-commerce, de réseaux sociaux) et voici ce qu'ils ont appris :

🏆 Le Code est le Roi : La méthode "Graph-as-Code" est de loin la meilleure. Elle bat les autres méthodes, surtout quand les textes sont longs ou quand les gens ont énormément de voisins. Elle ne se perd jamais dans la quantité d'informations.
🤝 Les IA ne sont pas fragiles (même avec des ennemis) : On pensait que les IA échoueraient si les gens du même groupe ne se connaissaient pas bien (ce qu'on appelle l'hétérophilie, comme dans certains réseaux sociaux où les opposants se suivent). Faux ! Les IA, surtout avec la méthode du code, arrivent très bien à comprendre ces situations complexes. Elles ne se contentent pas de suivre la foule ; elles analysent vraiment.
🧠 L'Adaptabilité : La méthode par code est intelligente. Si les textes sont flous, elle se concentre sur la structure du réseau. Si le réseau est bruyant, elle se concentre sur les textes. Elle s'adapte comme un caméléon, alors que les autres méthodes sont rigides.

💡 La Conclusion pour nous, humains

Si vous voulez utiliser une IA pour analyser des réseaux complexes (comme détecter des fraudes bancaires ou recommander des produits) :

N'essayez pas de tout lui donner d'un coup (trop de texte = confusion).
Ne lui donnez pas juste un menu d'outils rigide.
Laissez-lui écrire son propre plan d'action (du code). C'est la méthode la plus puissante, la plus flexible et celle qui résiste le mieux aux situations difficiles.

En résumé : Les actions (le code) parlent plus fort que les simples mots (les prompts). Laissez l'IA construire ses propres outils pour résoudre le puzzle, et elle sera bien plus performante.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles de langage de grande taille (LLM) sont de plus en plus utilisés pour des tâches d'apprentissage automatique sur des graphes riches en texte, telles que la classification de nœuds dans la détection de fraude ou les systèmes de recommandation. Cependant, malgré un intérêt croissant, le domaine manque d'une compréhension fondamentale des capacités des LLMs lorsqu'ils interagissent avec des données structurées en graphes.

Les travaux existants se concentrent souvent sur des domaines spécifiques ou des tâches isolées, sans évaluer systématiquement comment les différentes stratégies d'interaction (prompting, utilisation d'outils, génération de code) se comportent face à la variabilité des données (longueur du texte, homophilie du graphe, taille du modèle). De plus, il existe un risque d'application aveugle des LLMs aux graphes, conduisant à des résultats sous-optimaux, notamment en raison des limites de la fenêtre de contexte (token budget) et de la dépendance aux heuristiques de voisinage.

2. Méthodologie

Les auteurs ont mené une évaluation contrôlée à grande échelle factorisant six axes de variabilité clés :

Modes d'interaction LLM-Graphe : Comparaison de trois stratégies principales :
- Prompting ( $\phi_{prompt}$ ) : Encodage du graphe en texte (listes de voisins, descriptions) dans un seul prompt statique (0, 1 ou 2 sauts).
- GraphTool ( $\phi_{tool}$ ) : Approche de type ReAct où le LLM utilise des outils fixes pour interroger le graphe (récupérer les voisins, les features ou les labels) de manière itérative.
- Graph-as-Code ( $\phi_{code}$ ) : Le LLM génère et exécute du code (Python/Pandas) pour manipuler le graphe représenté comme un tableau typé, permettant une exploration adaptative et compositionnelle.
Domaines de données : Réseaux de citations, liens web, e-commerce et réseaux sociaux.
Régimes structurels : Graphes homophiles (voisins de même classe) vs hétérophiles (voisins de classes différentes).
Caractéristiques des features : Textes courts (titres) vs textes longs (descriptions détaillées, profils utilisateurs).
Configurations de modèles : Différentes tailles de LLMs (de Llama à GPT-5) et capacités de raisonnement (avec/sans mode "reasoning").
Analyse de dépendance : Troncature systématique des features textuelles, suppression des arêtes et masquage des labels pour quantifier la robustesse et les sources d'information utilisées par chaque méthode.

3. Contributions Clés

Évaluation Comparative Systématique : C'est la première étude à comparer exhaustivement le prompting, l'utilisation d'outils et la génération de code sur une variété de graphes réels et synthétiques.
Définition du "Graph-as-Code" : Présentation d'une nouvelle modalité d'interaction où le LLM agit comme un agent de programmation, générant du code pour interroger dynamiquement la structure du graphe, surpassant les méthodes statiques.
Analyse de Robustesse : Démonstration que les méthodes basées sur le code sont moins fragiles face à la suppression d'arêtes ou de labels, car elles peuvent basculer dynamiquement vers la source d'information la plus pertinente (features, structure ou labels).
Validation sur les Graphes Hétérophiles : Réfutation de l'hypothèse selon laquelle les méthodes basées sur les LLMs échouent systématiquement sur les graphes hétérophiles (faible homophilie).

4. Résultats Principaux

Performance Globale : La méthode Graph-as-Code obtient les meilleures performances globales. Elle surpasse significativement le prompting, en particulier sur les graphes à longs textes ou à degré élevé, où le prompting échoue rapidement en raison de l'épuisement de la limite de tokens (token budget).
Graphes Hétérophiles : Contrairement aux croyances populaires, toutes les stratégies d'interaction (y compris le prompting) restent efficaces sur les graphes hétérophiles. Les LLMs parviennent à exploiter des indices non locaux ou basés sur les features plutôt que de se fier uniquement au vote majoritaire du voisinage.
Robustesse et Adaptabilité :
- Le Graph-as-Code est capable de s'adapter flexiblement : si les arêtes sont supprimées, il se repose davantage sur les features textuelles, et vice-versa.
- Le Prompting est beaucoup plus fragile : sa performance s'effondre lorsque les arêtes sont supprimées ou lorsque le contexte dépasse la fenêtre de tokens.
Impact de la Taille du Modèle : Les modèles plus grands améliorent les performances, mais la limite de la fenêtre de contexte reste un goulot d'étranglement critique pour le prompting, indépendamment de la taille du modèle.
Efficacité des Tokens : Le Graph-as-Code et GraphTool consomment beaucoup moins de tokens que le prompting (qui doit inclure tout le contexte d'un coup), ce qui les rend plus évolutifs pour les graphes denses.

5. Signification et Implications

Cette étude fournit des directives pratiques pour les chercheurs et les praticiens :

Préférence pour la Génération de Code : Pour les applications réelles impliquant des graphes complexes, denses ou riches en texte, la génération de code (Graph-as-Code) est la modalité d'interaction préférée. Elle offre une meilleure efficacité, une robustesse accrue et évite les limites de la fenêtre de contexte.
Réévaluation des Graphes Hétérophiles : Les LLMs ne doivent pas être exclus des tâches sur des graphes hétérophiles ; ils peuvent y performer efficacement en exploitant les features textuelles.
Conception de Systèmes Robustes : La capacité du Graph-as-Code à basculer entre les sources d'information (structure vs features) en fait une solution idéale pour des environnements où les données peuvent être bruitées, incomplètes ou partiellement manquantes.

En conclusion, l'article démontre que "les actions (génération de code) parlent plus fort que les prompts", marquant un changement de paradigme dans la façon dont les LLMs devraient être orchestrés pour l'inférence sur les graphes.

Actions Speak Louder than Prompts: A Large-Scale Study of LLMs for Graph Inference

🌐 Le Problème : Les IA et les Réseaux Sociaux

🛠️ Les Trois Manières de Parler à l'IA

🔍 Ce que la recherche a découvert (Les Grandes Révélations)

💡 La Conclusion pour nous, humains

1. Problématique

2. Méthodologie

3. Contributions Clés

4. Résultats Principaux

5. Signification et Implications

Articles similaires

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics