DNS-GT: A Graph-based Transformer Approach to Learn Embeddings of Domain Names from DNS Queries

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich das Internet als eine riesige, laute Bibliothek vor. In dieser Bibliothek fragen Millionen von Menschen (den Computern) ständig nach Büchern (den Webseiten). Die Bibliothekare sind die DNS-Server, die den Leuten sagen, wo die Bücher stehen.

Normalerweise versuchen Sicherheitsleute, böse Absichten zu erkennen, indem sie nach bekannten "schlechten Büchern" suchen oder schauen, ob jemand plötzlich 100 Bücher auf einmal ausleiht. Aber die Diebe werden immer schlauer. Sie nutzen neue Tricks, die die alten Listen nicht kennen.

Hier kommt DNS-GT ins Spiel. Es ist wie ein super-intelligenter Detektiv, der nicht nur die Bücher selbst betrachtet, sondern auch den Kontext versteht.

Das Problem: Der alte Ansatz

Frühere Methoden waren wie jemand, der ein Buch nur nach seinem Titel beurteilt. Wenn der Titel "Geheime Pläne" heißt, ist es verdächtig. Aber was ist, wenn der Titel harmlos klingt, aber in einer Liste mit anderen verdächtigen Titeln auftaucht? Die alten Methoden verpassten diesen Zusammenhang. Sie waren wie ein Schüler, der nur Vokabeln auswendig lernt, aber keine Sätze bildet.

Die Lösung: DNS-GT (Der Detektiv mit dem Gedächtnis)

Die Forscher haben ein neues System namens DNS-GT entwickelt. Man kann es sich wie einen großen, lernenden Gehirn-Cluster vorstellen, der zwei besondere Fähigkeiten hat:

Der "Transformer" (Der Kontext-Leser):
Stellen Sie sich vor, Sie hören ein Gespräch in einem Raum. Wenn jemand sagt "Ich gehe zum...", und die nächsten Wörter sind "Supermarkt", denken Sie an Essen. Wenn die nächsten Wörter "Polizeistation" sind, denken Sie an Ärger.
DNS-GT macht genau das mit Internet-Abfragen. Es schaut sich nicht nur eine einzelne Domain (Webadresse) an, sondern die Reihenfolge, in der sie aufgerufen werden. Es lernt: "Wenn ein Computer zuerst nach 'Bank.de' fragt und dann sofort nach 'geheime-zahl-123.com', ist das verdächtig. Wenn er aber erst 'Bank.de' und dann 'Nachrichten.de' fragt, ist das normal." Es versteht die Geschichte hinter den Klicks.
Der "Graph" (Das soziale Netzwerk):
Das System baut auch eine Art soziales Netzwerk zwischen den Webseiten auf. Wenn zwei Webseiten oft zusammen aufgerufen werden, hängen sie in diesem Netzwerk eng zusammen. Wenn eine davon "kranke" Freunde (böswillige Seiten) hat, wird auch die andere verdächtig. Es ignoriert dabei den genauen Zeitpunkt der Anfrage, sondern schaut darauf, wer mit wem befreundet ist.

Wie lernt der Detektiv? (Das Training)

Der Detektiv wird nicht mit einer Liste von "Bösewichten" trainiert. Das wäre zu langsam und teuer. Stattdessen spielt er ein Spiel namens "Verstecktes Wort":

Man gibt ihm eine Liste von Webseiten, die ein Computer besucht hat.
Man löscht eine davon aus der Liste (maskiert sie).
Der Detektiv muss raten: "Welche Seite fehlte hier?"
Um das zu tun, muss er die anderen Seiten genau analysieren und verstehen, was dort typischerweise passiert.

Nach Millionen von Spielen versteht der Detektiv die "Grammatik" des Internets. Er weiß, welche Kombinationen von Webseiten normal sind und welche nicht.

Was bringt das?

Wenn der Detektiv dann auf eine echte Situation trifft, kann er zwei Dinge tun:

Klassifizierung: Er sagt sofort: "Diese Webseite ist wahrscheinlich bösartig", selbst wenn er sie noch nie gesehen hat, weil sie in einem verdächtigen Kontext auftaucht.
Botnet-Erkennung: Er erkennt, wenn viele Computer im Netzwerk gleichzeitig seltsame Muster zeigen (wie eine Armee von Zombies, die alle zur gleichen Zeit denselben Befehl ausführen).

Das Ergebnis

In Tests hat DNS-GT gezeigt, dass es viel besser ist als die alten Methoden (wie Word2Vec, die nur isolierte Wörter betrachten). Es ist wie der Unterschied zwischen jemandem, der nur ein Wörterbuch auswendig lernt, und jemandem, der Romane schreibt und versteht, wie Sätze zusammenhängen.

Zusammenfassend:
DNS-GT ist ein KI-System, das das Internet nicht als eine Ansammlung einzelner Webseiten sieht, sondern als einen lebendigen Fluss von Gesprächen. Indem es die Beziehungen zwischen den Webseiten versteht, kann es Betrüger und Hacker viel früher und genauer erkennen als die alten Sicherheitsmethoden. Es ist ein Schritt hin zu einem Internet, das nicht nur auf Listen von Verboten reagiert, sondern die Absichten der Nutzer wirklich versteht.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „DNS-GT: A Graph-based Transformer Approach to Learn Embeddings of Domain Names from DNS Queries" auf Deutsch:

1. Problemstellung

Netzwerk-Intrusion-Detection-Systeme (NIDS) sind entscheidend für die Cybersicherheit, stoßen jedoch bei der Erkennung moderner, komplexer Angriffe an Grenzen. Herkömmliche Methoden leiden unter folgenden Nachteilen:

Abhängigkeit von gelabelten Daten: Viele ML-Ansätze benötigen große Mengen an manuell gelabelten Daten, die in der Praxis oft fehlen oder teuer zu beschaffen sind.
Begrenzte Generalisierung: Bestehende Modelle haben Schwierigkeiten, sich an neue Bedrohungen anzupassen.
Mangelnder Kontext: Frühere Ansätze zur Einbettung von Domain-Namen (z. B. basierend auf Word2Vec) aggregieren nur lokale Ko-Okkurrenzmuster. Sie erfassen die semantischen und kontextuellen Abhängigkeiten zwischen DNS-Anfragen innerhalb einer Sequenz nicht ausreichend. DNS-Anfragen sind oft Teil einer logischen Abfolge (z. B. ein Botnet-Verhalten), die isoliert betrachtet keine Anomalie darstellt.

Das Ziel ist es, robuste Repräsentationen (Embeddings) für Domain-Namen zu lernen, die den Kontext von DNS-Abfragen berücksichtigen, ohne auf umfangreiche manuelle Label angewiesen zu sein.

2. Methodik: DNS-GT

Die Autoren stellen DNS-GT vor, ein neuartiges Modell, das Transformer-Architekturen mit Graph-Neural-Networks (GNNs) kombiniert, um DNS-Daten zu verarbeiten.

A. Datenvorverarbeitung und Sequenzierung

Rohdaten: Das Modell nutzt ungelabelte DNS-Traffic-Daten (PCAP-Dateien).
Sequenzierung: DNS-Anfragen werden zu Sequenzen gruppiert, die von einem einzelnen Host stammen. Um die zeitliche Abfolge zu berücksichtigen, werden drei Strategien getestet:
1. Fixed-length: Feste Fenstergröße.
2. Greedy time-based: Anfragen werden basierend auf Zeitabständen hinzugefügt.
3. Clustering time-based: Verwendung von DBSCAN, um zeitlich nahe beieinanderliegende Anfragen zu clustern.
Input: Jede Anfrage besteht aus einem Host-Token ( $h$ ) und einem Domain-Token ( $d$ ). Diese werden zu einem gemeinsamen Embedding kombiniert.

B. Modellarchitektur

DNS-GT basiert auf dem Transformer, wurde jedoch für den Cybersecurity-Kontext angepasst:

Masked Language Modeling (MLM): Das Modell wird im Selbstüberwachungsmodus (Self-Supervised) vortrainiert. Dabei werden zufällig Domain-Namen in einer Sequenz maskiert, und das Modell muss diese basierend auf dem Kontext der anderen Anfragen rekonstruieren. Dies lernt die „Grammatik" von DNS-Aktivitäten.
Graph Attention Network (GAT) statt Standard-Attention:
- Anstelle der standardmäßigen Self-Attention verwendet DNS-GT Multi-Head Graph Attention Blocks.
- Graph-Topologien: Es werden Adjazenzmatrizen verwendet, um zu definieren, welche Knoten (Anfragen) miteinander in Beziehung stehen. Dies erlaubt es dem Modell, kontextrelevante Informationen gezielt zu gewichten und irrelevante (z. B. Padding-Tokens) auszublenden.
- Permutations-Invarianz: Im Gegensatz zu Standard-Transformern ist das Modell invariant gegenüber der Permutation der Tokens in der Sequenz. Dies macht es robuster gegenüber kleinen zeitlichen Verzögerungen im Netzwerk, da die Position im Input weniger wichtig ist als die graphische Verbindung.
Dual-Repräsentation: Das Modell lernt separate Embeddings für Hosts und Domains, die dann fusioniert werden. Ein Hyperparameter ( $\omega$ ) steuert den Einfluss des Host-Informationen (z. B. für Datenschutz kann dieser auf 0 gesetzt werden).

C. Anwendung (Fine-Tuning)

Nach dem Vortraining kann das Modell für Downstream-Aufgaben feinabgestimmt werden:

Als Feature-Extractor: Die gelernten Embeddings werden als Eingabe für externe Klassifikatoren (z. B. SVM, Random Forest) verwendet.
End-to-End Klassifikation: Ein Klassifikationskopf wird direkt an das vortrainierte Modell angehängt, um kontextabhängige Entscheidungen zu treffen (z. B. Erkennung von Botnets oder bösartigen Domains).

3. Wichtige Beiträge

DNS-GT Architektur: Einführung eines hybriden Modells, das Transformer mit Graph-Neural-Networks für die Analyse von DNS-Abfragen kombiniert.
Kontextbewusste Embeddings: Das Modell erfasst nicht nur die Semantik einzelner Domains, sondern auch deren Verhalten innerhalb einer Sequenz (z. B. ob eine Domain in einer verdächtigen Abfolge von Anfragen erscheint).
Umfassende Evaluation: Auswertung auf einem realen Datensatz mit über 4.000 Hosts und ca. 13 Millionen DNS-Anfragen.
Transferfähigkeit: Demonstration, dass das gleiche vortrainierte Modell für verschiedene Aufgaben (Domain-Klassifikation und Botnet-Erkennung) genutzt werden kann.

4. Ergebnisse

Die Experimente wurden auf einem realen Campus-Netzwerk-Datensatz durchgeführt und mit Baselines wie Word2Vec (CBOW und Skip-Gram) verglichen.

Domain-Klassifikation (Bösartige vs. Harmlose Domains):
- DNS-GT (End-to-End) erreichte in allen Sequenzierungsstrategien die besten Ergebnisse.
- AUC (Area Under Curve): DNS-GT erzielte einen AUC von 0,848 (Density-Strategie), im Vergleich zu 0,779 für Word2Vec-CBOW und 0,656 für Word2Vec-SkipGram.
- F1-Score: DNS-GT erreichte den höchsten F1-Score (0,654), während Word2Vec-Modelle deutlich schlechter abschnitten.
- Interpretation: Externe Klassifikatoren, die nur die Embeddings als statische Vektoren nutzen, konnten die kontextuellen Informationen von DNS-GT nicht voll ausschöpfen. Die End-to-End-Finetuning-Strategie war entscheidend für den Erfolg.
Botnet-Erkennung:
- DNS-GT erreichte eine Genauigkeit von 87,7 % und einen AUC von 0,970, was mit dem besten Baseline-Modell (Word2Vec-SkipGram) gleichzog und Word2Vec-CBOW deutlich übertraf.
- Dies zeigt, dass das Modell auch für Host-basierte Klassifizierungsaufgaben robust ist.
Ablationsstudie:
- Das Entfernen des Attention-Mechanismus führte zu einem drastischen Einbruch der Leistung (AUC sank von 0,848 auf 0,410).
- Das Entfernen der Host-Informationen führte zu einer leichten Verschlechterung (AUC 0,762), was die Bedeutung beider Komponenten unterstreicht.
Kontextsensitivität:
- Analysen zeigten, dass die Klassifizierungswahrscheinlichkeit für dieselbe Domain stark variiert, je nachdem, in welchem Kontext (welche anderen Domains in der Sequenz) sie auftritt. Eine harmlose Domain kann als bösartig eingestuft werden, wenn sie in einer Sequenz mit bekannten Tracking-Domains erscheint.

5. Bedeutung und Ausblick

Skalierbarkeit: Der Ansatz ermöglicht die Nutzung großer Mengen ungelabelter DNS-Daten, was ein großes Problem bei der Beschaffung von Trainingsdaten für NIDS löst.
Grundlagenmodell (Foundation Model): DNS-GT demonstriert das Potenzial, große Sprachmodelle (LLMs) auf Netzwerkverkehr anzuwenden, um ein universelles Verständnis von DNS-Verhalten zu erlangen.
Zukunftsperspektiven: Die Autoren schlagen vor, das Modell auf größere Datensätze zu skalieren, weitere Downstream-Aufgaben (z. B. Session-Klassifikation) zu untersuchen und die Integration von externem Wissen (z. B. Threat-Intelligence-Feeds) in die Graph-Topologien zu vertiefen.

Fazit: DNS-GT stellt einen signifikanten Fortschritt in der DNS-basierten Bedrohungserkennung dar, indem es durch die Kombination von Transformer- und Graph-Techniken kontextuelle Abhängigkeiten effektiv nutzt und dabei die Abhängigkeit von manuell gelabelten Daten reduziert.