Each language version is independently generated for its own context, not a direct translation.
Stellen Sie sich vor, Sie finden einen mysteriösen, handgeschriebenen Brief auf der Straße. Sie wissen nicht, wer ihn geschrieben hat. Aber wenn Sie genau hinschauen, erkennen Sie: „Aha, dieser Mensch schreibt immer sehr lange Sätze, benutzt gerne das Wort ‚daher' und macht immer einen kleinen Fleck mit Tinte, wenn er ein Komma setzt." Das ist so etwas wie ein Fingerabdruck, nur für Sprache.
Dieses Papier beschreibt genau das, aber für Computercode, der von Künstlicher Intelligenz (KI) geschrieben wurde.
Hier ist die einfache Erklärung, wie die Forscher das Problem gelöst haben:
1. Das Problem: Wer hat den Code geschrieben?
Heutzutage schreiben viele Programmierer Code nicht mehr selbst, sondern lassen ihn von KI-Modellen wie ChatGPT, Claude oder DeepSeek generieren. Das ist super praktisch. Aber was passiert, wenn dieser Code einen Fehler hat, ein Sicherheitsloch enthält oder gegen Urheberrechte verstößt?
Dann muss man wissen: Welche KI hat das geschrieben?
Bisherige Methoden konnten nur sagen: „Ist das von einer KI oder von einem Menschen?" Aber sie konnten nicht unterscheiden, welche KI es war. Das ist wie zu sagen: „Das ist von einem Hund," ohne zu wissen, ob es ein Dackel, ein Schäferhund oder ein Golden Retriever ist.
2. Die Herausforderung: Der „Aufgabe"-Lärm
Das Schwierige ist: Wenn Sie zwei verschiedene KIs bitten, eine einfache mathematische Aufgabe zu lösen (z. B. „Rechne die Summe von 1 bis 10"), bekommen Sie oft fast identischen Code. Die Logik ist dieselbe, die Struktur ist dieselbe.
Die Unterschiede sind winzig:
- KI A nennt ihre Variablen vielleicht
zahl1,zahl2. - KI B nennt sie
num1,num2. - KI A schreibt Kommentare in langen Sätzen, KI B nur in kurzen Stichpunkten.
Diese winzigen Unterschiede sind wie der Stil eines Autors. Aber sie sind so klein, dass sie leicht von der eigentlichen Aufgabe („Rechne die Summe") überdeckt werden.
3. Die Lösung: Ein „Entwirrer" (DCAN)
Die Forscher haben ein neues System namens DCAN entwickelt. Man kann es sich wie einen Koch, der Zutaten trennt, vorstellen.
Stellen Sie sich vor, Sie haben einen Suppentopf, in dem zwei Dinge vermischt sind:
- Der Inhalt der Suppe (Die Aufgabe): Das ist das, was der Code tut. Das ist für alle KIs gleich, wenn sie dieselbe Aufgabe lösen. (Das nennen die Forscher „Quellen-unabhängige Information").
- Der Kochstil (Die KI-Persönlichkeit): Das ist, wie der Code geschrieben wurde. Die Art, wie die KI Sätze bildet, wie sie Kommentare schreibt, wie sie Einrückungen nutzt. (Das nennen die Forscher „Quellen-spezifische Information").
Bisherige Methoden haben versucht, die ganze Suppe zu schmecken und dabei oft den Inhalt (die Aufgabe) mit dem Stil verwechselt.
DCAN macht etwas Cleveres:
Es nimmt den Code und „zerlegt" ihn in zwei Schüsseln:
- In die eine Schüssel kommt nur die Logik (was der Code tut).
- In die andere Schüssel kommt nur der Stil (wie der Code aussieht).
Dann wirft es die Logik-Schüssel weg (oder ignoriert sie) und schaut sich nur die Stil-Schüssel an. Dort findet es die echten Fingerabdrücke der KI.
4. Der Beweis: Ein riesiges Geschmacks-Panel
Um zu beweisen, dass ihre Methode funktioniert, haben die Forscher ein riesiges Experiment gemacht:
- Sie haben vier berühmte KIs (DeepSeek, Claude, Qwen, ChatGPT) gebeten, 91.804 verschiedene Programmieraufgaben zu lösen.
- Sie haben das in vier verschiedenen Programmiersprachen gemacht (Python, Java, C, Go).
- Sie haben sogar zwei Szenarien getestet: Code mit Kommentaren (wie ein Koch, der erklärt, was er tut) und Code ohne Kommentare (nur die reine Handlung).
Das Ergebnis?
Ihr System konnte die KI fast immer richtig identifizieren!
- Ohne Kommentare lag die Trefferquote bei über 92 %.
- Mit Kommentaren (wo die KIs ihre „Sprache" zeigen) lag sie bei fast 98 %.
5. Warum ist das wichtig?
Stellen Sie sich vor, Sie sind ein Detektiv. Jemand hat einen Virus in ein Computersystem geschmuggelt. Der Code sieht aus wie normale Arbeit, aber er ist bösartig.
Mit diesem neuen Werkzeug können Sie jetzt sagen: „Aha! Dieser Code hat den Stil von KI X. Wir wissen also, wer dafür verantwortlich ist."
Das hilft bei:
- Sicherheit: Wer hat den Fehler gemacht?
- Recht: Wer besitzt den Code?
- Qualität: Welche KI schreibt den besten Code für welche Aufgabe?
Zusammenfassung in einem Satz
Die Forscher haben eine Art „Stil-Detektor" gebaut, der den eigentlichen Inhalt eines KI-geschriebenen Programms herausfiltert, um nur den einzigartigen „Handschrift"-Stil der jeweiligen KI zu sehen und so genau zu bestimmen, welche Maschine den Code geschrieben hat.