DNS-GT: A Graph-based Transformer Approach to Learn Embeddings of Domain Names from DNS Queries

Die Studie stellt DNS-GT vor, einen graphbasierten Transformer-Ansatz, der durch selbstüberwachtes Vortraining und Feinabstimmung auf DNS-Abfrage-Sequenzen aussagekräftige Domain-Name-Embeddings lernt, um die Genauigkeit bei der Erkennung von Botnets und der Klassifizierung von Domains im Vergleich zu bestehenden Methoden zu verbessern.

Massimiliano Altieri, Ronan Hamon, Roberto Corizzo, Michelangelo Ceci, Ignacio Sanchez

Veröffentlicht Fri, 13 Ma
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich das Internet als eine riesige, laute Bibliothek vor. In dieser Bibliothek fragen Millionen von Menschen (den Computern) ständig nach Büchern (den Webseiten). Die Bibliothekare sind die DNS-Server, die den Leuten sagen, wo die Bücher stehen.

Normalerweise versuchen Sicherheitsleute, böse Absichten zu erkennen, indem sie nach bekannten "schlechten Büchern" suchen oder schauen, ob jemand plötzlich 100 Bücher auf einmal ausleiht. Aber die Diebe werden immer schlauer. Sie nutzen neue Tricks, die die alten Listen nicht kennen.

Hier kommt DNS-GT ins Spiel. Es ist wie ein super-intelligenter Detektiv, der nicht nur die Bücher selbst betrachtet, sondern auch den Kontext versteht.

Das Problem: Der alte Ansatz

Frühere Methoden waren wie jemand, der ein Buch nur nach seinem Titel beurteilt. Wenn der Titel "Geheime Pläne" heißt, ist es verdächtig. Aber was ist, wenn der Titel harmlos klingt, aber in einer Liste mit anderen verdächtigen Titeln auftaucht? Die alten Methoden verpassten diesen Zusammenhang. Sie waren wie ein Schüler, der nur Vokabeln auswendig lernt, aber keine Sätze bildet.

Die Lösung: DNS-GT (Der Detektiv mit dem Gedächtnis)

Die Forscher haben ein neues System namens DNS-GT entwickelt. Man kann es sich wie einen großen, lernenden Gehirn-Cluster vorstellen, der zwei besondere Fähigkeiten hat:

  1. Der "Transformer" (Der Kontext-Leser):
    Stellen Sie sich vor, Sie hören ein Gespräch in einem Raum. Wenn jemand sagt "Ich gehe zum...", und die nächsten Wörter sind "Supermarkt", denken Sie an Essen. Wenn die nächsten Wörter "Polizeistation" sind, denken Sie an Ärger.
    DNS-GT macht genau das mit Internet-Abfragen. Es schaut sich nicht nur eine einzelne Domain (Webadresse) an, sondern die Reihenfolge, in der sie aufgerufen werden. Es lernt: "Wenn ein Computer zuerst nach 'Bank.de' fragt und dann sofort nach 'geheime-zahl-123.com', ist das verdächtig. Wenn er aber erst 'Bank.de' und dann 'Nachrichten.de' fragt, ist das normal." Es versteht die Geschichte hinter den Klicks.

  2. Der "Graph" (Das soziale Netzwerk):
    Das System baut auch eine Art soziales Netzwerk zwischen den Webseiten auf. Wenn zwei Webseiten oft zusammen aufgerufen werden, hängen sie in diesem Netzwerk eng zusammen. Wenn eine davon "kranke" Freunde (böswillige Seiten) hat, wird auch die andere verdächtig. Es ignoriert dabei den genauen Zeitpunkt der Anfrage, sondern schaut darauf, wer mit wem befreundet ist.

Wie lernt der Detektiv? (Das Training)

Der Detektiv wird nicht mit einer Liste von "Bösewichten" trainiert. Das wäre zu langsam und teuer. Stattdessen spielt er ein Spiel namens "Verstecktes Wort":

  • Man gibt ihm eine Liste von Webseiten, die ein Computer besucht hat.
  • Man löscht eine davon aus der Liste (maskiert sie).
  • Der Detektiv muss raten: "Welche Seite fehlte hier?"
  • Um das zu tun, muss er die anderen Seiten genau analysieren und verstehen, was dort typischerweise passiert.

Nach Millionen von Spielen versteht der Detektiv die "Grammatik" des Internets. Er weiß, welche Kombinationen von Webseiten normal sind und welche nicht.

Was bringt das?

Wenn der Detektiv dann auf eine echte Situation trifft, kann er zwei Dinge tun:

  1. Klassifizierung: Er sagt sofort: "Diese Webseite ist wahrscheinlich bösartig", selbst wenn er sie noch nie gesehen hat, weil sie in einem verdächtigen Kontext auftaucht.
  2. Botnet-Erkennung: Er erkennt, wenn viele Computer im Netzwerk gleichzeitig seltsame Muster zeigen (wie eine Armee von Zombies, die alle zur gleichen Zeit denselben Befehl ausführen).

Das Ergebnis

In Tests hat DNS-GT gezeigt, dass es viel besser ist als die alten Methoden (wie Word2Vec, die nur isolierte Wörter betrachten). Es ist wie der Unterschied zwischen jemandem, der nur ein Wörterbuch auswendig lernt, und jemandem, der Romane schreibt und versteht, wie Sätze zusammenhängen.

Zusammenfassend:
DNS-GT ist ein KI-System, das das Internet nicht als eine Ansammlung einzelner Webseiten sieht, sondern als einen lebendigen Fluss von Gesprächen. Indem es die Beziehungen zwischen den Webseiten versteht, kann es Betrüger und Hacker viel früher und genauer erkennen als die alten Sicherheitsmethoden. Es ist ein Schritt hin zu einem Internet, das nicht nur auf Listen von Verboten reagiert, sondern die Absichten der Nutzer wirklich versteht.