Code Fingerprints: Disentangled Attribution of LLM-Generated Code

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie finden einen mysteriösen, handgeschriebenen Brief auf der Straße. Sie wissen nicht, wer ihn geschrieben hat. Aber wenn Sie genau hinschauen, erkennen Sie: „Aha, dieser Mensch schreibt immer sehr lange Sätze, benutzt gerne das Wort ‚daher' und macht immer einen kleinen Fleck mit Tinte, wenn er ein Komma setzt." Das ist so etwas wie ein Fingerabdruck, nur für Sprache.

Dieses Papier beschreibt genau das, aber für Computercode, der von Künstlicher Intelligenz (KI) geschrieben wurde.

Hier ist die einfache Erklärung, wie die Forscher das Problem gelöst haben:

1. Das Problem: Wer hat den Code geschrieben?

Heutzutage schreiben viele Programmierer Code nicht mehr selbst, sondern lassen ihn von KI-Modellen wie ChatGPT, Claude oder DeepSeek generieren. Das ist super praktisch. Aber was passiert, wenn dieser Code einen Fehler hat, ein Sicherheitsloch enthält oder gegen Urheberrechte verstößt?
Dann muss man wissen: Welche KI hat das geschrieben?

Bisherige Methoden konnten nur sagen: „Ist das von einer KI oder von einem Menschen?" Aber sie konnten nicht unterscheiden, welche KI es war. Das ist wie zu sagen: „Das ist von einem Hund," ohne zu wissen, ob es ein Dackel, ein Schäferhund oder ein Golden Retriever ist.

2. Die Herausforderung: Der „Aufgabe"-Lärm

Das Schwierige ist: Wenn Sie zwei verschiedene KIs bitten, eine einfache mathematische Aufgabe zu lösen (z. B. „Rechne die Summe von 1 bis 10"), bekommen Sie oft fast identischen Code. Die Logik ist dieselbe, die Struktur ist dieselbe.
Die Unterschiede sind winzig:

KI A nennt ihre Variablen vielleicht zahl1, zahl2.
KI B nennt sie num1, num2.
KI A schreibt Kommentare in langen Sätzen, KI B nur in kurzen Stichpunkten.

Diese winzigen Unterschiede sind wie der Stil eines Autors. Aber sie sind so klein, dass sie leicht von der eigentlichen Aufgabe („Rechne die Summe") überdeckt werden.

3. Die Lösung: Ein „Entwirrer" (DCAN)

Die Forscher haben ein neues System namens DCAN entwickelt. Man kann es sich wie einen Koch, der Zutaten trennt, vorstellen.

Stellen Sie sich vor, Sie haben einen Suppentopf, in dem zwei Dinge vermischt sind:

Der Inhalt der Suppe (Die Aufgabe): Das ist das, was der Code tut. Das ist für alle KIs gleich, wenn sie dieselbe Aufgabe lösen. (Das nennen die Forscher „Quellen-unabhängige Information").
Der Kochstil (Die KI-Persönlichkeit): Das ist, wie der Code geschrieben wurde. Die Art, wie die KI Sätze bildet, wie sie Kommentare schreibt, wie sie Einrückungen nutzt. (Das nennen die Forscher „Quellen-spezifische Information").

Bisherige Methoden haben versucht, die ganze Suppe zu schmecken und dabei oft den Inhalt (die Aufgabe) mit dem Stil verwechselt.

DCAN macht etwas Cleveres:
Es nimmt den Code und „zerlegt" ihn in zwei Schüsseln:

In die eine Schüssel kommt nur die Logik (was der Code tut).
In die andere Schüssel kommt nur der Stil (wie der Code aussieht).

Dann wirft es die Logik-Schüssel weg (oder ignoriert sie) und schaut sich nur die Stil-Schüssel an. Dort findet es die echten Fingerabdrücke der KI.

4. Der Beweis: Ein riesiges Geschmacks-Panel

Um zu beweisen, dass ihre Methode funktioniert, haben die Forscher ein riesiges Experiment gemacht:

Sie haben vier berühmte KIs (DeepSeek, Claude, Qwen, ChatGPT) gebeten, 91.804 verschiedene Programmieraufgaben zu lösen.
Sie haben das in vier verschiedenen Programmiersprachen gemacht (Python, Java, C, Go).
Sie haben sogar zwei Szenarien getestet: Code mit Kommentaren (wie ein Koch, der erklärt, was er tut) und Code ohne Kommentare (nur die reine Handlung).

Das Ergebnis?
Ihr System konnte die KI fast immer richtig identifizieren!

Ohne Kommentare lag die Trefferquote bei über 92 %.
Mit Kommentaren (wo die KIs ihre „Sprache" zeigen) lag sie bei fast 98 %.

5. Warum ist das wichtig?

Stellen Sie sich vor, Sie sind ein Detektiv. Jemand hat einen Virus in ein Computersystem geschmuggelt. Der Code sieht aus wie normale Arbeit, aber er ist bösartig.
Mit diesem neuen Werkzeug können Sie jetzt sagen: „Aha! Dieser Code hat den Stil von KI X. Wir wissen also, wer dafür verantwortlich ist."

Das hilft bei:

Sicherheit: Wer hat den Fehler gemacht?
Recht: Wer besitzt den Code?
Qualität: Welche KI schreibt den besten Code für welche Aufgabe?

Zusammenfassung in einem Satz

Die Forscher haben eine Art „Stil-Detektor" gebaut, der den eigentlichen Inhalt eines KI-geschriebenen Programms herausfiltert, um nur den einzigartigen „Handschrift"-Stil der jeweiligen KI zu sehen und so genau zu bestimmen, welche Maschine den Code geschrieben hat.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Code Fingerprints: Disentangled Attribution of LLM-Generated Code" auf Deutsch:

1. Problemstellung

Mit der zunehmenden Verbreitung von Large Language Models (LLMs) zur automatisierten Code-Generierung entstehen neue Herausforderungen für die Software-Governance, Sicherheit und Lizenzierung. Während bestehende Forschung sich primär auf die Unterscheidung zwischen menschengeschriebenem und maschinell generiertem Code konzentriert, fehlt es an Methoden, um spezifische Quell-LLMs (z. B. ChatGPT vs. Claude vs. DeepSeek) zu identifizieren.

Das Kernproblem ist die LLM Code Source Attribution (LLMCSA). Es ist schwierig, da verschiedene Modelle oft ähnliche algorithmische Lösungen für dieselbe Aufgabe finden, was zu oberflächlich ähnlichem Code führt. Gleichzeitig enthalten die Modelle jedoch subtile, modellspezifische „Stile" und strukturelle Muster (sogenannte Generative Fingerprints), die durch Unterschiede in Trainingsdaten, Architekturen und Decodierungsstrategien entstehen. Herkömmliche Detektionsmethoden scheitern oft daran, diese feinen stilistischen Signale von der eigentlichen funktionalen Semantik der Aufgabe zu trennen.

2. Methodik: DCAN (Disentangled Code Attribution Network)

Die Autoren schlagen DCAN vor, ein Framework, das auf dem Prinzip der Entwirrung (Disentanglement) latenter Repräsentationen basiert. Das Ziel ist es, zwei komplementäre Informationsarten im Code zu trennen:

Source-Agnostic Information: Aufgabenabhängige semantische Informationen, die für die Lösung der Programmieraufgabe notwendig sind und über alle Modelle hinweg ähnlich sein sollten.
Source-Specific Information: Modellspezifische stilistische und strukturelle Fingerabdrücke, die für die Attribution entscheidend sind.

Der DCAN-Ablauf:

Feature Extraction: Ein vortrainierter Encoder (UniXcoder) wandelt den Code in eine latente Repräsentation ( $h_{base}$ ) um, die sowohl semantische als auch stilistische Informationen enthält.
Disentanglement Module:
- Ein nicht-lineares Projektionsnetzwerk (MLP) extrahiert die Source-Agnostic-Komponente ( $h_{com}$ ), die die gemeinsame Aufgabenlogik darstellt.
- Die Source-Specific-Komponente ( $h_{spec}$ ) wird durch subtraktive Dekomposition gewonnen: $h_{spec} = h_{base} - h_{com}$ .
Optimierung (Loss Functions):
- Source Classification Loss ( $L_{cls}$ ): Ein linearer Klassifikator wird auf $h_{spec}$ angewendet, um die Quell-Modelle zu identifizieren. Dies erzwingt, dass $h_{spec}$ diskriminierende Merkmale enthält.
- Representation Consistency Loss ( $L_{rc}$ ): Dieser Loss sorgt dafür, dass $h_{com}$ für verschiedene Modelle, die dieselbe Aufgabe lösen, konsistent ist (d.h. die Aufgabenlogik wird korrekt erfasst). Dies verhindert, dass die Aufgaben-Semantik in den stilistischen Anteil „leckt".

3. Schlüsselbeiträge

Neue Aufgabe (LLMCSA): Definition und Formulierung des Problems der Zuordnung von Code zu spezifischen LLM-Anbietern.
Benchmark-Datensatz: Erstellung des ersten groß angelegten, öffentlichen Datensatzes für LLMCSA.
- Umfang: 91.804 Code-Samples.
- Quellen: 4 führende LLMs (DeepSeek, Claude, Qwen, ChatGPT).
- Sprachen: 4 Programmiersprachen (C, Go, Java, Python).
- Settings: Zwei Modi (mit Kommentaren und ohne Kommentare), basierend auf 2.869 LeetCode-Aufgaben.
Framework: Entwicklung von DCAN, das durch explizite Entwirrung robuste Attribution ermöglicht, ohne Zugriff auf den Generierungsprozess zu benötigen (passive Forensik).

4. Ergebnisse

Die Experimente wurden auf dem neuen Datensatz durchgeführt und verglichen DCAN mit adaptierten Baselines (GPTSniffer, CodeGPTSensor).

Leistung (Attribution Feasibility):
- Im Plain Setting (ohne Kommentare) erreichte DCAN eine durchschnittliche F1-Score von 92,94 %, deutlich besser als die Baselines (~89 %).
- Im Comment Setting (mit Kommentaren) stieg die Leistung auf 98,38 %, was zeigt, dass natürliche Sprache in Kommentaren zusätzliche starke Attributionssignale liefert.
- DCAN war über alle vier Programmiersprachen hinweg konsistent erfolgreich.
Robustheit:
- Komplexität: Die Leistung verbesserte sich paradoxerweise bei schwierigeren Aufgaben (Medium/Hard), da komplexere Aufgaben mehr Raum für modellspezifische Implementierungsentscheidungen lassen.
- Datenmenge: DCAN zeigte auch bei nur 10 % der Trainingsdaten eine überlegene Leistung, was auf die Effizienz der Entwirrung hindeutet.
- Zero-Shot Generalisierung: Das Modell konnte auf ungesehene Programmiersprachen generalisieren (Leave-One-Language-Out), wobei die Leistung bei Sprachen mit ähnlicher Syntax (C/Java/Go) sehr hoch war. Bei Python (andere Syntax) war die Leistung im Plain-Modus geringer, verbesserte sich aber im Comment-Modus drastisch, da der Schreibstil der Kommentare sprachübergreifend konsistenter ist.
Validierung des Mechanismus:
- Eine Ablationsstudie zeigte, dass die reine Source-Agnostic-Komponente ( $h_{com}$ ) nur zufällige Treffer (~25 %) erzielt, während die Source-Specific-Komponente ( $h_{spec}$ ) die volle Leistung bringt.
- t-SNE-Visualisierungen bestätigten, dass sich die Repräsentationen der verschiedenen Modelle im $h_{spec}$ -Raum klar trennen, im $h_{com}$ -Raum jedoch überlappen.

5. Bedeutung und Fazit

Das Paper demonstriert, dass LLMs trotz ihrer Fähigkeit, funktionale Äquivalenz zu erreichen, inhärente, unterscheidbare „Coding-Persönlichkeiten" besitzen.

Praktische Relevanz: Die Methode ermöglicht es, die Herkunft von Code-Snippets in Sicherheitsvorfällen, Lizenzprüfungen oder bei der Analyse von Schwachstellen zu bestimmen.
Wissenschaftlicher Fortschritt: Der Ansatz verschiebt den Fokus von rein statistischer Detektion hin zu einer tiefen semantischen Trennung von Aufgabe und Stil. Dies ist ein wichtiger Schritt hin zu einer automatisierten Software-Forensik in der Ära der KI-generierten Software.
Open Source: Der Datensatz und die Implementierung sind öffentlich verfügbar, was die Reproduzierbarkeit und weitere Forschung in diesem Bereich fördert.

Zusammenfassend beweist DCAN, dass eine Entwirrung von Aufgaben-Semantik und Modell-Stil der Schlüssel zu einer zuverlässigen und robusten Attribution von LLM-generiertem Code ist.

Code Fingerprints: Disentangled Attribution of LLM-Generated Code

1. Das Problem: Wer hat den Code geschrieben?

2. Die Herausforderung: Der „Aufgabe"-Lärm

3. Die Lösung: Ein „Entwirrer" (DCAN)

4. Der Beweis: Ein riesiges Geschmacks-Panel

5. Warum ist das wichtig?

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: DCAN (Disentangled Code Attribution Network)

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Toward Adaptive Large Language Models Structured Pruning via Hybrid-grained Weight Importance Assessment

Leveraging GANs for citation intent classification and its impact on citation network analysis

Leveraging Open-Source Large Language Models for Clinical Information Extraction in Resource-Constrained Settings

Are you sure? Measuring models bias in content moderation through uncertainty

Markovian Transformers for Informative Language Modeling