Ursprüngliche Autoren: Aleksandr Churilov (Independent Researcher)

Veröffentlicht 2026-05-19✓ Author reviewed ⓘ

📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Ursprüngliche Autoren: Aleksandr Churilov (Independent Researcher)

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie sind ein Koch, der versucht, ein neues Rezept zuzubereiten. Sie bitten einen superschlauen, KI-gestützten Sous-Chef um Hilfe. Der Sous-Chef sagt Ihnen selbstbewusst: „Sie müssen SuperSpice-9000 im Lebensmittelgeschäft kaufen!" Sie gehen zum Geschäft, aber SuperSpice-9000 existiert nicht.

In der Welt der Computerprogrammierung ist dieses „Lebensmittelgeschäft" ein digitales Lager namens PyPI (für Python) oder npm (für JavaScript). Diese Lager beherbergen Millionen vorgefertigter Code-Zutaten (Pakete), die Programmierer mit einem einzigen Befehl herunterladen können.

Dieser Artikel ist eine Fortsetzung einer beunruhigenden Geschichte, die im vergangenen Jahr erzählt wurde. Damals stellten Forscher fest, dass KI-Köche sehr schlecht darin waren, Zutaten zu benennen. Sie erfanden etwa 5 % bis 22 % der Zeit falsche Namen wie „SuperSpice-9000". Ein hinterhältiger Dieb könnte ein bösartiges Paket mit diesem erfundenen Namen registrieren, warten, bis ein Programmierer die KI danach fragt, und dann den Programmierer dazu verleiten, einen Virus zu installieren. Dies wird als „Slopsquatting" bezeichnet.

Der Autor dieses Artikels, ein unabhängiger Forscher, fragte: „Hat sich die KI zwei Jahre später in dieser Hinsicht verbessert?"

Hier ist das Ergebnis, einfach erklärt:

1. Das Problem der „falschen Zutaten" wurde kleiner, ist aber nicht verschwunden

Die Forscher testeten die fünf intelligentesten KI-Codierungsmodelle, die Anfang 2026 verfügbar waren (von Unternehmen wie Anthropic, OpenAI, Google und DeepSeek).

Die gute Nachricht: Die Lücke zwischen dem „besten" und dem „schlechtesten" KI-Modell hat sich dramatisch verringert. 2024 waren einige KIs schrecklich (22 % falsche Namen), während andere in Ordnung waren (5 %). 2026 sind sie alle ungefähr gleich: Sie erfinden etwa 4,6 % bis 6,1 % der Zeit falsche Namen. Die „Streuung" der Fehlerhaftigkeit ist kollabiert.
Die schlechte Nachricht: Die Bedrohung ist immer noch sehr real. Obwohl die Rate gesunken ist, sind 4–6 % immer noch hoch genug, damit ein Dieb Gewinn machen kann. Wenn eine KI in 20 Fällen einmal einen falschen Namen erfindet, kann ein Dieb diesen falschen Namen immer noch registrieren und warten, bis Tausende von Programmierern ihn versehentlich herunterladen.

2. Die Entdeckung des „universellen Fakes"

Dies ist die größte Überraschung des Artikels. Die Forscher fanden 127 spezifische erfundene Namen, die alle fünf Top-KI-Modelle unabhängig voneinander erfanden.

Die Analogie: Stellen Sie sich vor, Sie fragen fünf verschiedene Expertenköche: „Was ist die geheime Zutat in dieser Suppe?", und sie sagen alle unabhängig voneinander: „Es ist BlueFlavor-7", obwohl diese Zutat nicht existiert.
Die Gefahr: Wenn ein Dieb „BlueFlavor-7" einmal registriert, kann er Benutzer aller fünf KI-Unternehmen gleichzeitig angreifen. Es ist eine „universelle Falle", die nicht davon abhängt, welche KI Sie verwenden.

3. Ein paar seltsame Wendungen

Der Artikel fand einige Muster, die dem Gegenteil dessen entsprachen, was wir erwarteten:

Python vs. JavaScript: 2024 war die KI beim Benennen von JavaScript-Zutaten schlechter. 2026 ist sie tatsächlich beim Benennen von Python-Zutaten schlechter. Die KI scheint durch die chaotischen Benennungsregeln von Python verwirrt zu werden.
Der „kleine" vs. der „große" Bruder: Normalerweise machen kleinere, günstigere KI-Modelle mehr Fehler als große, teure. Doch hier machte das „kleine" Modell (Claude Haiku) tatsächlich weniger erfundene Namen als sein „großer Bruder" (Claude Sonnet). Es scheint, dass das kleine Modell darauf trainiert wurde, bei Anweisungen besonders vorsichtig zu sein.

4. Warum ist das Problem geschrumpft?

Der Autor schlägt drei Gründe vor, warum die KI jetzt etwas besser ist:

Chancengleichheit: Die „Open-Source"-Modelle (kostenlos nutzbar) sind so gut geworden, dass sie nun genauso intelligent sind wie die „kommerziellen" Modelle (kostenpflichtig), sodass sich die Lücke zwischen ihnen geschlossen hat.
Besseres Training: Die Unternehmen, die der KI Daten zuführen, scheinen ihre „Kochbücher" (Trainingsdaten) bereinigt zu haben, um mehr erfundene Zutatenamen zu entfernen.
Standardisiertes Training: Alle großen KI-Unternehmen verwenden jetzt ähnliche Lehrmethoden, sodass sie alle ähnliche (etwas bessere) Fehler machen.

Das Fazit

Die KI-Köche haben ihr Verhalten ein wenig bereinigt, aber sie erfinden immer noch oft genug falsche Zutaten, um gefährlich zu sein. Das Besorgniserregendste ist, dass sie alle dieselben erfundenen Zutaten erfinden.

Was der Artikel NICHT sagt:

Er sagt nicht, dass dies ein gelöstes Problem ist.
Er sagt nicht, dass Sie die KI nicht mehr verwenden sollten.
Er behauptet nicht, dass alle KI-Modelle schlecht sind (sie testeten nur die Top 5 „Frontier"-Modelle; kleinere, ältere Modelle könnten immer noch viel schlimmer sein).

Die Hauptbotschaft des Autors lautet: Der Fehlerbereich hat sich verkleinert, aber die Bedrohung bleibt bestehen. Programmierer und Sicherheitsteams müssen sich bewusst sein, dass selbst die intelligentesten KIs von heute Sie immer noch zu einem gefälschten, gefährlichen Download führen können.

Technische Zusammenfassung: Neubewertung von Paket-Halluzinationen bei LLMs im Kohorten-Frontier-Modell 2026

Problemstellung

Der Beitrag behandelt die bekannte Sicherheitsanfälligkeit Slopsquatting, einen Angriffsvektor in der Lieferkette, bei dem Gegner bösartige Pakete auf PyPI oder npm unter Namen registrieren, die von Large Language Models (LLMs) halluziniert werden. Wenn Entwickler LLM-generiertem Code vertrauen, der pip install- oder npm install-Anweisungen für nicht existierende Pakete enthält, installieren sie diese bösartigen Artefakte unabsichtlich.

Während Spracklen et al. (USENIX Security '25) die Existenz dieser Bedrohung im Jahr 2024 nachwiesen und Halluzinationsraten von 5,2 % (kommerzielle Modelle) bis 21,7 % (Open-Source-Modelle) berichteten, blieb die empirische Frage offen, ob sich dieses Phänomen mit dem raschen Fortschritt der Frontier-Modelle, die zwischen Ende 2025 und Anfang 2026 veröffentlicht wurden, weiterentwickelt hat. Konkret wollten die Autoren herausfinden, ob die Halluzinationsraten gesunken sind, ob die Varianz zwischen den Modellen enger geworden ist und ob neue, modellagnostische Angriffsflächen entstanden sind.

Methodik

Die Studie ist eine getreue Replikation der Methodik von Spracklen et al., angewendet auf eine neue Kohorte von fünf Frontier-Modellen mit Code-Kompetenz, die zwischen Oktober 2025 und März 2026 veröffentlicht wurden:

Claude Sonnet 4.6 (Anthropic)
Claude Haiku 4.5 (Anthropic)
GPT-5.4-mini (OpenAI)
Gemini 2.5 Pro (Google)
DeepSeek V3.2 (DeepSeek)

Experimentelles Design:

Prompt-Korpus: Die Autoren nutzten die exakten Prompt-Datensätze aus dem Spracklen-Artifact (insgesamt 576.000 Prompts über 16 Modelle in der ursprünglichen Studie), bestehend aus 20.163 Stack-Overflow-Fragen und 19.806 von LLMs synthetisierten Fragen, gleichmäßig aufgeteilt zwischen Python und JavaScript.
Generierung: Insgesamt wurden 199.845 Code-Beispiele generiert (ca. 39.969 pro Modell).
Extraktion und Validierung: Paketreferenzen wurden mittels regex-basierter Heuristiken extrahiert, die pip install, npm install und Import-Anweisungen abgleichen. Die extrahierten Namen wurden gegen Masterlisten existierender Pakete für PyPI (500.565 Namen) und npm (~3 Millionen Namen) zum Stand vom 28. April 2026 validiert.
Statistische Analyse: Die Halluzinationsraten wurden als Verhältnis von nicht auflösbaren Referenzen zu Gesamtreferenzen berechnet. Die statistische Signifikanz wurde mit Pearson- $\chi^2$ -Statistiken unter Verwendung der Holm–Bonferroni-Korrektur für paarweise Vergleiche getestet, ergänzt durch Jaccard-Ähnlichkeitsmetriken zur Messung der Überlappung bei halluzinierten Namen.

Hauptbeiträge

Replikation an Frontier-Modellen: Eine umfassende Messung der Paket-Halluzinationsraten über fünf State-of-the-Art-Modelle, die eine neue Basislinie für 2026 erstellt.
Identifikation einer Komprimierung des Bereichs: Dokumentation einer signifikanten Verengung der intermodellen Halluzinationsstreuung im Vergleich zu den Daten von 2024.
Entdeckung universeller Halluzinationen: Die Identifizierung einer Menge von 127 Paketnamen (109 auf PyPI, 18 auf npm), die von allen fünf bewerteten Modellen identisch halluziniert werden und somit eine modellagnostische Angriffsfläche darstellen.
Beobachtung von Anomalien:
- Eine Umkehrung der Asymmetrie der Halluzinationen zwischen Python und JavaScript (die Raten für Python sind nun höher).
- Eine Umkehrung innerhalb der Anthropic-Familie, bei der das kleinere Modell (Haiku 4.5) weniger halluziniert als das größere Modell (Sonnet 4.6).
- Eine hohe Jaccard-Ähnlichkeit (0,343) zwischen DeepSeek V3.2 und GPT-5.4-mini, was auf gemeinsame Trainingsdatenursprünge oder konvergente Fehlermuster hindeutet.
Open-Science-Artifact: Veröffentlichung von Replikationscode, Validierungsprotokollen und Analyse-Skripten sowie einer Zugangsrichtlinie für verifizierte Forscher für das vollständige Halluzinationskorpus.

Ergebnisse

Halluzinationsraten und Komprimierung des Bereichs

Die Studie ergab, dass die Halluzinationsraten in der Kohorte 2026 von 4,62 % (Claude Haiku 4.5) bis 6,10 % (GPT-5.4-mini) reichen.

Komprimierung: Dies stellt eine elffache Verengung der intermodellen Streuung im Vergleich zu den Ergebnissen von Spracklen aus dem Jahr 2024 (5,2 %–21,7 %) dar.
Ursache: Die Komprimierung wird auf die schließende Lücke zwischen Open-Weight- und kommerziellen Modellen zurückgeführt (z. B. ist DeepSeek V3.2 nun mit kommerziellen Marktführern konkurrenzfähig) sowie auf die Sättigung der Kuratierung von Trainingsdaten hinsichtlich Paketreferenzen.
Persistenz: Trotz der Komprimierung bleibt die Bedrohung für Gegner wirtschaftlich tragfähig, da selbst eine Rate von 4,62 % pro Modell Hunderte einzigartiger halluzinierter Namen ergibt.

Universeller Halluzinations-Satz

Ein entscheidendes Ergebnis ist die Existenz von 127 Paketnamen, die von allen fünf Modellen halluziniert werden.

Bedeutung: Dies schafft eine „modellagnostische" Angriffsfläche. Ein Angreifer, der ein einziges bösartiges Paket registriert (z. B. opentelemetry oder @ember/service), kann Benutzer aller fünf großen Anbieter gleichzeitig angreifen.
Mechanismus: Die Autoren vermuten, dass diese universellen Fehler auf gemeinsame Teilstrings in den Trainingsdaten (z. B. Dokumentationen, die Namen falsch verwenden) oder auf systematische Überverallgemeinerung von Namespace-Konventionen zurückzuführen sind (z. B. die Behandlung interner Unterpakete als installierbare Ziele).

Spezifische Anomalien

Sprach-Asymmetrie: Im Gegensatz zu den Ergebnissen von 2024, bei denen JavaScript „lauter" war, wiesen alle fünf Modelle der Kohorte 2026 höhere Halluzinationsraten für Python auf (+2,73 bis +4,13 Prozentpunkte höher als bei JavaScript). Die Autoren hypothesieren, dass dies auf die heterogenen Namenskonventionen von Python (snake_case, Bindestriche, Punkte) im Vergleich zur flacheren Struktur von JavaScript zurückzuführen ist.
Anthropic-Umkehrung: Innerhalb der Anthropic-Familie halluzinierte Claude Haiku 4.5 (4,62 %) signifikant weniger als Claude Sonnet 4.6 (5,41 %). Dies widerspricht dem typischen Muster, bei dem kleinere Modelle mehr halluzinieren. Die Autoren führen dies auf die standardmäßige „extended-thinking"-Fähigkeit von Haiku 4.5 und einen spezifischen Nachtrainingsfokus auf Instruktionsfidelity zurück.
DeepSeek/OpenAI-Konvergenz: DeepSeek V3.2 und GPT-5.4-mini zeigten die höchste paarweise Jaccard-Ähnlichkeit (0,343), was auf gemeinsame Verzerrungen oder Trainingsdatenursprünge hindeutet.

Bedeutung und Behauptungen

Der Beitrag kommt zu dem Schluss, dass sich zwar der Bereich der Halluzinationsraten verkleinert hat, die Bedrohung jedoch nicht gebannt wurde.

Wirtschaftliche Tragfähigkeit: Bei Raten von 4–7 % bleibt der Slopsquatting-Angriff aufgrund der kostenfreien Natur der Paketregistrierung für Gegner hochprofitabel.
Methodischer Wandel: Die Autoren argumentieren, dass Einzelmodell-Studien unzureichend sind. Die Existenz eines universellen Halluzinationssatzes bedeutet, dass die gesamte Angriffsfläche unterschätzt wird, wenn nur ein Modell bewertet wird. Die Kreuzkohorten-Schnittstellenanalyse sollte zu einer Standardmetrik in zukünftiger Sicherheitsforschung werden.
Implikationen für die Verteidigung: Die Ergebnisse unterstreichen, dass Sicherheitsnachtrainings und Skalierung von Modellen die Varianz zwar reduziert, aber das grundlegende Problem der Konvergenz von Modellen auf spezifische, falsche Paketnamen nicht beseitigt haben. Die Autoren betonen, dass sich das „Frontier" zwar komprimiert hat, aber Modelle der unteren Ebene im Open-Source-Bereich möglicherweise immer noch die hohen Raten aufweisen, die 2024 beobachtet wurden.

Die Studie behält in Bezug auf ihre Behauptungen einen bescheidenen Ton bei und weist auf Einschränkungen hin, wie etwa das Potenzial für Datenlecks in den Trainingsdaten (da das Prompt-Korpus 2025 veröffentlicht wurde) und den Ausschluss agenter Konfigurationen, bei denen Abrufmechanismen Halluzinationen möglicherweise mildern könnten. Der Hauptbeitrag ist der empirische Nachweis, dass die Slopsquatting-Bedrohung persistiert und sich zu einer verwundbarkeit über mehrere Anbieter entwickelt hat.

The Range Shrinks, the Threat Remains: Re-evaluating LLM Package Hallucinations on the 2026 Frontier-Model Cohort