REx86: A Local Large Language Model for Assisting in x86 Assembly Reverse Engineering

Die Studie stellt REx86 vor, ein lokal ausführbares, feinabgestimmtes Large Language Model auf Basis von Qwen2.5-Coder-7B, das durch Training auf einem speziellen x86-Assembly-Datensatz die Effizienz und Genauigkeit bei der Reverse Engineering-Analyse von Binärdateien in geschützten Umgebungen signifikant verbessert.

Darrin Lea, James Ghawaly, Golden Richard, Aisha Ali-Gombe, Andrew Case

Veröffentlicht 2026-03-09
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Die Geschichte von REx86: Ein lokaler Detektiv für verschlüsselten Code

Stell dir vor, du hast einen riesigen, alten Schrank voller Bücher gefunden. Aber die Bücher sind in einer fremden Sprache geschrieben, die Seiten sind durcheinandergeraten, und alle wichtigen Überschriften und Erklärungen wurden mit einem schwarzen Marker unleserlich gemacht. Das ist, was Reverse Engineering (das „Rückwärts-Entschlüsseln" von Software) ist.

In der Welt der Cybersicherheit müssen Experten genau so etwas tun: Sie schauen sich schädliche Programme (Malware) an, um herauszufinden, was sie tun. Aber oft ist der Code so verschleiert, dass es wie die Suche nach einer Nadel im Heuhaufen wirkt.

Hier kommt REx86 ins Spiel.

1. Das Problem: Der verschlossene Brief

Normalerweise nutzen Experten riesige, cloudbasierte KI-Modelle (wie einen super-intelligenten, aber entfernten Professor), um ihnen zu helfen, diese verschlüsselten Texte zu lesen.

  • Das Problem: In vielen sicherheitskritischen Bereichen (z. B. bei der Regierung oder in Fabriken) darf man keine Daten ins Internet senden. Es ist wie ein Brief, den man nicht einmal aus dem Haus schicken darf.
  • Die Lösung: Man braucht einen „lokalen Professor", der direkt auf dem eigenen Computer sitzt, keine Internetverbindung braucht und absolut vertraulich ist.

2. Die Erfindung: Ein Spezialist für den Keller

Die Forscher von der Louisiana State University haben genau das gebaut: REx86.

Stell dir vor, sie haben einen sehr klugen, aber noch etwas rohen KI-Assistenten genommen (ein sogenanntes „Large Language Model"). Dieser Assistent war schon gut in allgemeinen Dingen, aber im „Keller" der Computerwelt (bei den tiefen, technischen Befehlen, die als x86-Assembly bekannt sind) war er noch etwas verloren.

Was haben sie gemacht?
Sie haben dem Assistenten einen speziellen Trainingskurs gegeben.

  • Der Trainingsstoff: Sie haben ihm fast 6.000 Beispiele von Computercode gegeben, die bereits von Experten mit Notizen und Erklärungen versehen waren.
  • Die Methode: Sie haben ihn nicht komplett neu gebaut (das wäre zu teuer und zu langsam), sondern sie haben ihm nur ein paar „Gedächtnisstützen" (LoRA-Adapter) angelegt. Das ist wie wenn man einem Studenten nicht das ganze Schulbuch neu gibt, sondern ihm nur die wichtigsten Zusammenfassungen und Eselsbrücken in sein Notizbuch schreibt.

3. Der Test: Wer versteht den Code besser?

Die Forscher haben acht verschiedene KI-Modelle getestet. Der Gewinner war REx86 (basierend auf einem Modell namens Qwen2.5-Coder).

Was kann REx86 besser als die anderen?

  • Die alte KI: Wenn man ihr einen verschlüsselten Code zeigte, sagte sie oft: „Hier werden Bits manipuliert, vielleicht für eine Verschlüsselung." (Das ist wie wenn ein Übersetzer sagt: „Hier sind Wörter, die etwas bedeuten", ohne zu sagen, was sie bedeuten).
  • REx86: Sie sagt: „Dieser Teil des Codes nimmt die oberen 16 Bits, dreht sie um und legt sie unten an." (Das ist wie ein Übersetzer, der sagt: „Hier wird das Wort 'Hund' in 'Cat' umgewandelt, weil...").

REx86 macht weniger Fehler, halluziniert weniger (erfindet keine Dinge, die nicht da sind) und erklärt die Zusammenhänge viel präziser.

4. Der menschliche Test: Hilft es echten Menschen?

Die Forscher haben einen kleinen Test mit 43 Studenten gemacht. Sie gaben ihnen einen schädlichen Code zu analysieren.

  • Gruppe A (Ohne Hilfe): Mühte sich ab.
  • Gruppe B (Mit der alten KI): Hatte etwas mehr Hilfe, verstand aber oft noch nicht den Kern.
  • Gruppe C (Mit REx86): Verstand die einzelnen Zeilen des Codes deutlich besser.

Das Ergebnis:
Die Gruppe mit REx86 konnte den Code zu 53 % richtig entschlüsseln, während die anderen nur bei ca. 31 % lagen. Auch wenn der Unterschied statistisch nicht ganz perfekt war (wegen der kleinen Gruppe), war die Tendenz klar: Mit REx86 verstehen die Menschen schneller, was das Programm eigentlich tut.

5. Warum ist das wichtig?

  • Sicherheit: Da REx86 lokal läuft, kann man es in streng gesicherten Räumen nutzen, ohne dass Daten abfließen.
  • Effizienz: Es macht die Arbeit von Sicherheitsanalysten schneller und weniger mühsam.
  • Zugänglichkeit: Es ist kostenlos und läuft auf normalen, starken Gaming-PCs, nicht nur auf riesigen Supercomputern.

Das Fazit in einem Satz

**REx86 ist wie ein persönlicher, verschwiegener Übersetzer, der direkt auf deinem Computer sitzt und dir hilft, die verschlüsselte Sprache von Computerprogrammen zu verstehen, damit du schneller herausfindest, ob sie böse Absichten haben oder nicht.


Hinweis: Die Forscher betonen, dass REx86 zwar hilft, aber die Arbeit nicht komplett übernimmt. Es ist ein Werkzeug, das den Menschen unterstützt, nicht ersetzt.