Actions Speak Louder than Prompts: A Large-Scale Study of LLMs for Graph Inference

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen riesigen, verworrenen Stadtplan (ein Graph), auf dem jeder Punkt eine Person, ein Produkt oder eine Webseite ist. Diese Punkte sind durch Straßen miteinander verbunden. Deine Aufgabe ist es, für eine bestimmte Person zu erraten, was sie macht (z. B. ist sie ein Betrüger? Ist sie ein Fan von Sci-Fi-Filmen?), basierend auf dem, was über sie geschrieben steht und wer ihre Nachbarn sind.

Früher nutzten Computer dafür spezielle, starre Werkzeuge (die sogenannten GNNs). Aber jetzt haben wir Künstliche Intelligenzen (LLMs), die wie superkluge, weltreisende Detektive sind, die alles lesen und verstehen können. Die Frage war: Wie lassen wir diese Detektive am besten auf diesem Stadtplan arbeiten?

Die Forscher haben drei verschiedene Methoden getestet, um herauszufinden, welche am besten funktioniert. Hier ist die einfache Erklärung ihrer Entdeckungen:

1. Die drei Methoden: Wie sprechen wir mit dem Detektiv?

Stell dir vor, du musst dem Detektiv Informationen über die Stadt geben.

Methode A: Der "Prompt" (Das große Gedränge)
Du nimmst den Detektiv und drückst ihm einen riesigen Stapel Papier in die Hand. Auf diesem Papier stehen alle Informationen: die Beschreibung der gesuchten Person, ihre Nachbarn, die Nachbarn der Nachbarn, alles auf einmal.
- Das Problem: Wenn die Stadt groß ist oder die Beschreibungen sehr lang sind, wird der Papierstapel so dick, dass der Detektiv ihn gar nicht mehr lesen kann (er "explodiert" vor Informationen). Er verliert den Überblick.
Methode B: Das "Werkzeug-Set" (Der Telefonanruf)
Du gibst dem Detektiv ein Telefon und eine Liste mit Tasten. Er kann sagen: "Ruf mir die Adresse von Nachbar Nr. 5 an" oder "Ruf mir die Beschreibung von Nachbar Nr. 10 an". Er ruft nach und nach einzelne Informationen ab.
- Das Problem: Das ist gut, aber es dauert lange. Er muss viele kleine Anrufe tätigen, um ein Bild zu bekommen.
Methode C: "Code schreiben" (Der Baumeister)
Das ist der Gewinner! Hier sagst du dem Detektiv: "Du bist jetzt ein Baumeister. Du hast einen Computer, auf dem die ganze Stadt als Datenbank gespeichert ist. Schreibe dir ein kleines Programm, das genau die Informationen holt, die du brauchst, und berechne die Antwort selbst."
- Der Vorteil: Der Detektiv schreibt sich ein Skript, das automatisch die richtigen Daten filtert, zusammenfasst und berechnet. Er muss nicht den ganzen Papierstapel lesen oder hundert Anrufe tätigen. Er holt sich nur das, was er gerade braucht, und ignoriert den Rest.

2. Was haben die Forscher herausgefunden?

Die Studie verglich diese Methoden in verschiedenen Szenarien (kleine Dörfer, riesige Metropolen, homogene Gruppen vs. gemischte Gruppen). Hier sind die wichtigsten Erkenntnisse:

Der "Code-Schreiber" gewinnt fast immer:
Die Methode, bei der die KI Code schreibt (Graph-as-Code), war überall am besten. Besonders bei großen Städten mit vielen langen Beschreibungen (z. B. E-Commerce oder soziale Netzwerke) war sie unschlagbar. Warum? Weil sie nicht von der "Papierstapel-Grenze" (Token-Limit) der KI gebremst wird. Sie kann sich ihre eigene, effiziente Art der Informationsbeschaffung programmieren.
Seltsame Nachbarn sind kein Problem:
Früher dachte man, KIs scheitern, wenn Nachbarn sehr unterschiedlich sind (z. B. in einem Stadtteil, wo sich sehr verschiedene Menschen treffen). Die Studie zeigt: Nein! Die KIs sind schlau genug, auch dort zu erkennen, wer wer ist, indem sie sich auf die Texte konzentrieren, nicht nur auf die Nachbarschaft.
Anpassungsfähigkeit ist der Schlüssel:
Der "Code-Schreiber" ist wie ein flexibler Taktiker.
- Wenn die Nachbarn sehr aussagekräftig sind, nutzt er die Struktur des Graphen.
- Wenn die Texte der Nachbarn verrauscht sind, ignoriert er sie und konzentriert sich auf die eigenen Daten.
- Wenn Labels fehlen, nutzt er andere Hinweise.
  Die anderen Methoden (das große Papier oder die einzelnen Anrufe) sind starr. Wenn eine Information fehlt oder zu viel ist, brechen sie oft zusammen.

3. Die große Metapher: Der Bibliothekar

Stell dir vor, du suchst ein Buch in einer riesigen Bibliothek.

Der "Prompt"-Ansatz ist so, als würdest du den Bibliothekar zwingen, dir alle Bücher des Regals auf einmal auf den Tisch zu werfen, damit er das richtige findet. Wenn das Regal riesig ist, liegt das Buch unter einem Berg Papier begraben.
Der "Tool"-Ansatz ist, als würdest du dem Bibliothekar sagen: "Geh zu Regal A, nimm Buch 1, dann Regal B, nimm Buch 2..." Das funktioniert, ist aber langsam und umständlich.
Der "Code"-Ansatz ist, als würdest du dem Bibliothekar einen Roboter geben, den er programmieren kann. Der Roboter läuft schnell durch die Bibliothek, scannt nur die Titel, die relevant sind, und bringt dir genau das eine Buch, das du brauchst.

Fazit für die Praxis

Wenn man heute KI-Systeme baut, die mit komplexen Daten und Netzwerken arbeiten sollen (z. B. für Betrugserkennung oder Empfehlungssysteme), sollte man nicht einfach nur "Fragen stellen" (Prompting). Stattdessen sollte man der KI erlauben, Programme zu schreiben, um die Daten zu analysieren. Das ist effizienter, robuster und funktioniert auch dann noch, wenn die Daten riesig oder unordentlich sind.

Kurz gesagt: Lass die KI nicht nur lesen, lass sie arbeiten wie ein Programmierer. Das bringt die besten Ergebnisse.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Große Sprachmodelle (LLMs) werden zunehmend für textreiche Graph-Machine-Learning-Aufgaben eingesetzt, insbesondere für die Knotenklassifizierung in Bereichen wie Betrugserkennung und Empfehlungssystemen. Trotz des wachsenden Interesses fehlt es der Forschung an einem prinzipiellen Verständnis dafür, wie LLMs mit Graphdaten interagieren.

Das zentrale Problem besteht darin, dass die bisherigen Ansätze oft spezifische Domänen oder Graphen betrachten und keine generalisierbaren Erkenntnisse liefern. Zudem ist unklar, welche Interaktionsstrategie (Prompting, Tool-Use oder Code-Generierung) unter welchen Bedingungen (z. B. Homophilie vs. Heterophilie, kurze vs. lange Textmerkmale, Graph-Dichte) am effektivsten ist. Ein blindes Anwenden von LLMs auf Graphen birgt das Risiko suboptimaler Ergebnisse, insbesondere wenn Token-Limits durch lange Textmerkmale oder hohe Knotengrade erreicht werden.

2. Methodik

Die Autoren führen eine groß angelegte, kontrollierte Evaluation durch, die mehrere Variabilitätsachsen systematisch untersucht.

Interaktionsstrategien (LLM-Graph-Modi):
Die Studie vergleicht drei Hauptansätze:

Prompting ( $\phi_{prompt}$ ): Der gesamte Kontext (Knotenmerkmale, Nachbarn bis zu $k$ -Hop, Labels) wird in einem einzigen Prompt an das LLM gesendet. Es werden Varianten mit 0-, 1- und 2-Hop-Nachbarschaft sowie Budget-beschränkte Varianten getestet.
GraphTool ( $\phi_{tool}$ ): Ein ReAct-basierter Ansatz (Reasoning + Acting), bei dem das LLM iterativ Aktionen aus einem festen Satz ausführt (z. B. Nachbarn abrufen, Merkmale lesen, Labels abfragen). Dies ermöglicht eine gezielte Informationsbeschaffung.
Graph-as-Code ( $\phi_{code}$ ): Das LLM generiert, führt und analysiert Code (basierend auf Pandas/DataFrames), um auf Graphstruktur und Merkmale zuzugreifen. Dies erlaubt eine flexible, programmatische Abfrage und Kombination von Informationen, die über feste Tool-Sets hinausgeht.

Variabilitätsachsen:

Domänen: Zitationsnetzwerke, Web-Links, E-Commerce und soziale Netzwerke.
Strukturelle Regime: Homophile Graphen (Knoten gleicher Klasse sind verbunden) vs. heterophile Graphen (Knoten unterschiedlicher Klasse sind verbunden).
Merkmalscharakteristika: Kurze Texte (z. B. Titel) vs. lange Texte (z. B. detaillierte Beschreibungen, Reviews).
Modellkonfigurationen: Verschiedene LLM-Größen (von Llama bis GPT-5) und Varianten mit/ohne Reasoning-Fähigkeiten.

Abhängigkeitsanalyse:
Um die inneren Abläufe zu verstehen, führen die Autoren Ablationsstudien durch, bei denen sie systematisch Textmerkmale truncieren (kürzen), Kanten löschen und Labels entfernen. Dies erzeugt 2D-Wärmebilder der Genauigkeit, um zu quantifizieren, wie stark jede Methode von Struktur, Merkmalen oder Labels abhängt.

3. Schlüsselbeiträge und Erkenntnisse

Die Studie liefert folgende zentrale Erkenntnisse:

Graph-as-Code ist überlegen: Die Code-Generierungsmethode ( $\phi_{code}$ ) erzielt die beste Gesamtleistung. Sie ist besonders vorteilhaft bei Graphen mit langen Textmerkmalen oder hohem Knotengrad, wo Prompting schnell das Token-Limit erreicht und scheitert.
Robustheit bei Heterophilie: Im Gegensatz zu früheren Annahmen, dass LLM-basierte Methoden bei heterophilen Graphen (geringe Homophilie) versagen, sind alle Interaktionsstrategien effektiv. LLMs können nicht-lokale oder merkmalsbasierte Hinweise nutzen, anstatt sich nur auf lokale Nachbarschafts-Labels zu verlassen.
Adaptive Abhängigkeit: Graph-as-Code kann seine Abhängigkeit flexibel zwischen Struktur, Merkmalen und Labels verschieben. Es nutzt den informativsten Eingabetyp. Wenn Merkmale stark degradiert sind, nutzt es die Struktur; wenn Labels fehlen, nutzt es Merkmale. Prompting hingegen ist starr und bricht zusammen, wenn eine dieser Komponenten fehlt oder das Token-Limit erreicht wird.
Skalierung und Reasoning: Größere Modelle und Modelle mit Reasoning-Fähigkeiten verbessern die Leistung konsistent. Allerdings bleibt das Token-Limit für Prompting eine fundamentale Beschränkung, die auch durch größere Modelle nicht umgangen werden kann.
Effizienz: Während Prompting massive Token-Kosten verursacht (oft >100.000 Tokens bei langen Texten), sind Tool-Use und Graph-as-Code deutlich token-effizienter, da sie nur spezifische Informationen abrufen.

4. Ergebnisse im Detail

Kurztext/Homophilie: Prompting und Graph-as-Code sind konkurrenzfähig, wobei Graph-as-Code bei hohen Durchschnitten an Grad (Anzahl der Nachbarn) durch Token-Limits bei Prompting gewinnt.
Langtext/Homophilie: Hier zeigt sich der größte Leistungsunterschied. Prompting scheitert oft an Token-Limits (z. B. auf den Datensätzen photo oder wiki-cs), während Graph-as-Code durch selektive Abfrage hohe Genauigkeit beibehält.
Heterophilie: Alle Methoden erreichen hohe Genauigkeiten, was die Annahme widerlegt, dass LLMs bei heterophilen Strukturen kollabieren. Graph-as-Code ist hier besonders robust gegenüber Rauschen in den Nachbarschafts-Labels.
Ablationsstudien:
- Bei Entfernung von Kanten bricht Prompting ein, während Graph-as-Code die Genauigkeit behält (da es Merkmale anderer Knoten auch ohne direkte Kantenverbindung im Prompt-Code abrufen kann).
- Bei Entfernung von Labels zeigt Graph-as-Code, dass es sich auf Merkmale verlagern kann, während Prompting stark von beiden (Struktur und Labels) abhängig ist.

5. Signifikanz und Implikationen

Diese Arbeit bietet praktische und handlungsleitende Richtlinien für die Anwendung von LLMs in Graph-ML:

Paradigmenwechsel: Statt reines Prompting zu verwenden, sollte Code-Generierung (Graph-as-Code) als bevorzugter Interaktionsmodus für komplexe, textreiche Graphen betrachtet werden.
Robustheit: Graph-as-Code ist die robusteste Methode für reale Szenarien, in denen Daten unvollständig, verrauscht oder strukturell komplex sein können.
Design-Prinzipien: Für zukünftige Ansätze ist es entscheidend, adaptive Mechanismen zu entwickeln, die den Kontext dynamisch verwalten, anstatt statische, große Kontextfenster zu füllen.
Heterophilie: Die Ergebnisse entkräften die Sorge, dass LLMs für heterophile Graphen ungeeignet sind, und eröffnen neue Anwendungsfelder in Bereichen wie Web-Link-Analyse.

Zusammenfassend demonstriert das Paper, dass die Fähigkeit von LLMs, Code zu generieren und auszuführen, ihre graphische Schlussfolgerungsfähigkeit weit über die rein textbasierte Prompting-Strategie hinaushebt, insbesondere in skalierbaren und datenreichen Umgebungen.

Actions Speak Louder than Prompts: A Large-Scale Study of LLMs for Graph Inference

1. Die drei Methoden: Wie sprechen wir mit dem Detektiv?

2. Was haben die Forscher herausgefunden?

3. Die große Metapher: Der Bibliothekar

Fazit für die Praxis

1. Problemstellung

2. Methodik

3. Schlüsselbeiträge und Erkenntnisse

4. Ergebnisse im Detail

5. Signifikanz und Implikationen

Mehr davon

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics