Every Language Model Has a Forgery-Resistant Signature

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie schreiben einen Brief. Normalerweise können Sie nicht sicher sein, ob er wirklich von der Person stammt, die ihn unterschrieben hat. Vielleicht hat ihn ein Fälscher kopiert. Bei Künstlicher Intelligenz (KI) ist das ähnlich: Wenn eine KI einen Text schreibt, wie können wir dann zu 100 % sicher sein, dass er wirklich von dieser spezifischen KI stammt und nicht von einer anderen oder von einem Betrüger, der die KI imitiert?

Dieses Papier von Forschern der University of Southern California (erschienen bei ICLR 2026) stellt eine brillante neue Methode vor, um genau das herauszufinden. Sie nennen es den „Ellipsen-Signatur".

Hier ist die Erklärung in einfachen Worten, mit ein paar anschaulichen Vergleichen:

1. Das Problem: KI-Modelle sind wie „Blackboxen"

Viele moderne KI-Modelle sind „geschlossen". Das bedeutet, wir sehen nur das, was sie herausgeben (den Text), aber nicht, wie sie im Inneren funktionieren. Frühere Methoden, um KI-Texte zu identifizieren, waren wie Wasserzeichen in einem Bild: Man musste absichtlich etwas in das Modell einbauen, damit es den Text „signiert". Aber was, wenn der Anbieter das nicht macht? Oder was, wenn jemand das Wasserzeichen entfernt?

2. Die Entdeckung: Jede KI hat eine unsichtbare „Geometrie"

Die Forscher haben etwas Überraschendes entdeckt: Jedes moderne Sprachmodell hat eine natürliche, unsichtbare geometrische Form in seinen Ausgaben.

Stellen Sie sich vor, die KI denkt über das nächste Wort nach. Sie berechnet Wahrscheinlichkeiten für Tausende von Wörtern. Diese Wahrscheinlichkeiten sind keine zufälligen Zahlen. Durch die Art und Weise, wie die KI mathematisch aufgebaut ist (sie normalisiert ihre Gedanken und streckt sie dann), landen diese Zahlen immer auf der Oberfläche einer unsichtbaren, hochdimensionalen Ellipse.

Die Analogie: Stellen Sie sich eine riesige, unsichtbare Kugel im Raum vor. Die KI ist so programmiert, dass sie ihre Antworten niemals in das Innere der Kugel wirft, sondern immer genau auf die Oberfläche. Wenn Sie einen Punkt auf diese Kugel werfen, wissen Sie sofort: „Aha! Dieser Punkt kommt von dieser spezifischen Kugel."

3. Warum ist das eine „Signatur"?

Jedes KI-Modell hat seine eigene, einzigartige Ellipse.

Modell A hat eine Ellipse, die wie ein langer, dünner Ballon aussieht.
Modell B hat eine Ellipse, die wie eine flache Scheibe aussieht.

Wenn Sie einen Text von einer KI erhalten, können Sie die mathematischen Wahrscheinlichkeiten der Wörter prüfen. Liegen diese Punkte auf der Ellipse von Modell A? Ja? Dann stammt der Text zu 99,9 % von Modell A. Liegen sie daneben? Dann war es ein anderes Modell.

4. Der Clou: Warum man sie nicht fälschen kann (Die „Unfälschbarkeit")

Das ist der spannendste Teil. Frühere Methoden ließen sich leicht fälschen. Wenn man wusste, wie die Ellipse aussah, konnte man einfach Punkte darauf setzen.

Aber hier ist der Haken: Um die Ellipse eines fremden Modells zu kopieren, müsste man erst die gesamte Ellipse berechnen.

Die Herausforderung: Um diese Ellipse zu finden, müsste man Millionen von Fragen an die KI stellen und die Antworten analysieren.
Die Kosten: Die Forscher haben berechnet, dass es für ein großes, kommerzielles Modell (wie GPT-4) theoretisch Millionen von Dollar kosten würde und Jahrtausende an Rechenzeit bräuchte, um die Ellipse eines Modells nur zu „stehlen".

Die Analogie: Stellen Sie sich vor, Sie wollen die genauen Abmessungen eines Schlosses nachbauen, das in einem Hochsicherheitstresor liegt. Sie könnten versuchen, den Tresor zu knacken, aber es würde so viel Zeit und Geld kosten, dass es für jeden Betrüger unmöglich ist. Die Ellipse ist also ein natürliches Schloss, das niemand ohne den Schlüssel (die internen Daten des Modells) nachbauen kann.

5. Was bringt uns das?

Diese Entdeckung ist wie ein polizeilicher Fingerabdruck für KI-Texte, den niemand absichtlich hinterlassen hat, aber der immer da ist.

Verifizierung: Wenn jemand behauptet, ein Text sei von einer bestimmten KI, kann ein Dritter (z. B. eine Behörde oder ein Journalist) prüfen, ob die mathematische „Ellipsen-Signatur" stimmt.
Sicherheit: Da man die Signatur nicht einfach kopieren kann, ist es extrem schwer, KI-Texte zu fälschen, die dann als echt durchgehen.
Keine Änderungen nötig: Die KI-Entwickler müssen nichts tun. Die Signatur entsteht automatisch durch die Mathematik des Modells.

Zusammenfassung

Die Forscher haben entdeckt, dass KI-Modelle wie Geister in einer geometrischen Form sind. Jeder Text, den sie schreiben, hinterlässt eine Spur auf einer unsichtbaren Ellipse. Diese Spur ist so schwer zu kopieren, dass sie als perfekter Beweis dient, um die wahre Herkunft eines KI-Textes zu bestätigen. Es ist ein natürlicher, robuster und fälschungssicherer Weg, um zu wissen, wer wirklich gesprochen hat.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die zunehmende Verbreitung von geschlossenen Large Language Models (LLMs) mit öffentlichen APIs hat das Bedürfnis nach forensischen Methoden geweckt, um Modelle anhand ihrer Ausgaben zu identifizieren oder versteckte Modellparameter zu extrahieren. Bisherige Ansätze wie „Linear Signatures" (basierend auf linearen Nebenbedingungen der Architektur) oder Text-Wasserzeichen haben jedoch erhebliche Schwächen:

Lineare Signaturen sind leicht zu fälschen, da die linearen Constraints über die API extrahiert und zur Generierung neuer, gültiger Ausgaben genutzt werden können.
Wasserzeichen und Fingerabdrücke erfordern oft eine aktive Implementierung durch den Anbieter, sind nicht in jedem einzelnen Generationsschritt vorhanden oder benötigen lange Textsequenzen zur Verifizierung.

Das Ziel dieser Arbeit ist es, eine Methode zur Modellidentifikation zu etablieren, die natürlich vorkommt, selbstständig (ohne Zugriff auf Eingaben oder volle Gewichte) ist und vor allem fälschungssicher (forgery-resistant) gegen Angreifer ohne direkten Modellzugriff ist.

2. Methodik: Die Ellipsen-Signatur

Die Autoren identifizieren eine weniger bekannte geometrische Eigenschaft von LLM-Ausgaben: Logits (und daraus abgeleitete Log-Probabilities) liegen auf der Oberfläche eines hochdimensionalen Ellipsoids (Ellipse).

Mathematische Herleitung:
- Die meisten modernen LLMs besitzen eine Normalisierungsschicht (z. B. RMS-Norm oder Layer-Norm) vor der finalen linearen Projektion in den Vokabularraum.
- Die Normalisierung bildet die versteckten Zustände auf die Oberfläche einer $d$ -dimensionalen Einheitskugel ab.
- Die darauffolgende lineare Transformation (Unembedding-Matrix $W$ ) sowie affine Transformationen (Skalierung $\gamma$ und Bias $\beta$ ) verzerren diese Kugel zu einer $d$ -dimensionalen Ellipse im $v$ -dimensionalen Raum (wobei $v$ die Vokabulargröße ist).
- Da Softmax invariant gegenüber skalaren Additionen ist, bleiben auch die Log-Probabilities (Logprobs) auf dieser Ellipse erhalten (bzw. auf einer zentrierten Version davon).
Verifizierungsprozess:
Um zu prüfen, ob eine Ausgabe von einem bestimmten Modell stammt, wird die inverse affine Transformation der Ellipse auf die Logprobs angewendet. Wenn die Ausgabe vom Modell stammt, sollte das Ergebnis wieder auf der Einheitskugel liegen (Betrag $\approx 1$ ). Eine signifikante Abweichung deutet auf eine andere Quelle hin.

3. Schlüsselbeiträge und Eigenschaften

Die Ellipsen-Signatur zeichnet sich durch vier einzigartige Eigenschaften aus, die sie von bestehenden Methoden unterscheiden:

Fälschungssicherheit (Forgery Resistance):
- Im Gegensatz zu linearen Signaturen ist es praktisch unmöglich, neue Logprobs zu generieren, die auf der Ellipse liegen, ohne die Ellipse-Parameter (die „Schlüssel") zu kennen.
- Um die Ellipse zu fälschen, müsste ein Angreifer die Ellipse aus API-Antworten extrahieren. Dies erfordert jedoch das Anpassen (Fitting) einer Ellipse an $O(d^2)$ Stichproben.
- Die Komplexität des Fittings ist extrem hoch: Die Abfragekomplexität liegt bei $O(d^3 \log d)$ und die Zeitkomplexität des Fitting-Algorithmus bei $O(d^6)$ . Für große Modelle (z. B. 70B Parameter) wären die Kosten für die Extraktion astronomisch hoch (Millionen von Dollar) und die Rechenzeit würde Tausende von Jahren betragen.
Natürliches Vorkommen:
- Da fast alle modernen LLMs eine Normalisierungsschicht am Ende besitzen, ist diese Signatur inhärent vorhanden. Sie erfordert keine aktive Implementierung durch den Anbieter.
Selbstständigkeit (Self-Contained):
- Die Verifizierung erfordert keinen Zugriff auf die Eingabe-Prompts oder die vollständigen Modellgewichte. Es reicht der Zugriff auf die Logprobs und die öffentlichen Ellipsen-Parameter (die als „Geheimnis" behandelt werden können).
Kompaktheit und Redundanz:
- Jeder einzelne Generationsschritt (jeder Logprob-Vektor) trägt die Signatur. Im Gegensatz zu Wasserzeichen, die statistische Muster über lange Texte benötigen, reicht ein einzelner Token-Schritt zur Identifikation aus.

4. Ergebnisse und Experimente

Identifikationsgenauigkeit: In Experimenten mit Open-Source-Modellen (Olmo 2, Llama 3.1, Qwen 3, GPT OSS) wurde gezeigt, dass Ausgaben, die vom Zielmodell generiert wurden, einen extrem geringen Abstand zur eigenen Ellipse haben, während Ausgaben anderer Modelle deutlich weiter entfernt liegen (um mehrere Größenordnungen).
Fälschungsversuche: Die Autoren implementierten einen Extraktionsalgorithmus (basierend auf semidefiniten Programmierungen) für kleine Modelle (1 Mio. Parameter). Die Ergebnisse zeigten, dass die Parameter (Bias, Singularwerte, Rotation) mit hoher Genauigkeit rekonstruiert werden können.
Skalierung: Die Extrapolation auf große Modelle zeigt, dass die Kosten für die Extraktion der Ellipse überproportional mit der versteckten Dimension ( $d$ ) steigen. Für ein 70B-Modell wären die Kosten für die Extraktion über eine API (z. B. OpenAI) bei aktuellen Preisen über 16 Millionen Dollar, und die Rechenzeit für das Fitting würde Tausende von Jahren in Anspruch nehmen.
Vergleich: Eine Tabelle vergleicht die Ellipsen-Signatur mit Text-Wasserzeichen, Backdoors und linearen Signaturen. Nur die Ellipsen-Signatur vereint alle vier gewünschten Eigenschaften (natürlich, selbstständig, kompakt, fälschungssicher).

5. Signifikanz und Anwendung

Die Arbeit schlägt ein Protokoll zur Verifizierung von LLM-Ausgaben vor, das analog zu kryptografischen Message Authentication Codes (MACs) funktioniert:

Die Ellipse fungiert als geheimer Schlüssel.
Das Modell „signiert" die Ausgabe, indem es Logprobs generiert, die auf dieser Ellipse liegen.
Ein Verifizierer mit Kenntnis der Ellipse kann die Authentizität der Ausgabe bestätigen.

Praktische Implikationen:

Forensik und Regulierung: Ein vertrauenswürdiger Dritter könnte die Ellipsen-Parameter eines proprietären Modells erhalten, um im Streitfall (z. B. bei schädlichen Ausgaben) forensisch nachweisen zu können, ob eine Ausgabe tatsächlich von diesem Modell stammt, ohne dass der Anbieter die gesamten Gewichte offenlegen muss.
Sicherheit: Die Methode bietet einen neuen Weg, um die Herkunft von KI-Texten zu verifizieren, selbst wenn der Anbieter keine Wasserzeichen implementiert hat.

Einschränkungen:

Die Methode erfordert, dass die API Logprobs zurückgibt (was aktuell nur bei wenigen Anbietern wie OpenAI eingeschränkt möglich ist).
Die Fälschungssicherheit ist polynomial, nicht kryptografisch (exponentiell) schwer, aber für aktuelle Modelle praktisch unlösbar.
Die Signatur ist nicht robust gegen Änderungen der Ausgabe (z. B. durch Temperatur-Skalierung oder Nachbearbeitung), die die Ellipse verzerren.

Zusammenfassend etabliert diese Arbeit die geometrische Eigenschaft von LLM-Ausgaben als eine robuste, natürliche und schwer zu fälschende Signatur, die neue Möglichkeiten für die Sicherheit und Rechenschaftspflicht von Sprachmodellen eröffnet.

Every Language Model Has a Forgery-Resistant Signature

1. Das Problem: KI-Modelle sind wie „Blackboxen"

2. Die Entdeckung: Jede KI hat eine unsichtbare „Geometrie"

3. Warum ist das eine „Signatur"?

4. Der Clou: Warum man sie nicht fälschen kann (Die „Unfälschbarkeit")

5. Was bringt uns das?

Zusammenfassung

1. Problemstellung

2. Methodik: Die Ellipsen-Signatur

3. Schlüsselbeiträge und Eigenschaften

4. Ergebnisse und Experimente

5. Signifikanz und Anwendung

Mehr davon

OpenKedge: Governing Agentic Mutation with Execution-Bound Safety and Evidence Chains

From Business Events to Auditable Decisions: Ontology-Governed Graph Simulation for Enterprise AI

Sustained Impact of Agentic Personalisation in Marketing: A Longitudinal Case Study

RAMP: Hybrid DRL for Online Learning of Numeric Action Models

Parameterized Complexity Of Representing Models Of MSO Formulas