Oorspronkelijke auteurs: Aleksandr Churilov (Independent Researcher)

Gepubliceerd 2026-05-19✓ Author reviewed ⓘ

📖 4 min leestijd☕ Koffiepauze-leesvoer

Oorspronkelijke auteurs: Aleksandr Churilov (Independent Researcher)

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je een chef-kok bent die een nieuw recept probeert te bereiden. Je vraagt hulp aan een super slimme, door AI aangedreven sous-chef. De sous-chef zegt zelfverzekerd: "Je moet SuperSpice-9000 kopen bij de supermarkt!" Je gaat naar de winkel, maar SuperSpice-9000 bestaat niet.

In de wereld van computerprogrammeren is deze "supermarkt" een digitaal magazijn dat PyPI (voor Python) of npm (voor JavaScript) heet. Deze magazijnen bevatten miljoenen kant-en-klare code-"ingrediënten" (packages) die programmeurs met één commando kunnen downloaden.

Dit artikel is een vervolg op een eng verhaal dat vorig jaar werd verteld. Destijds ontdekten onderzoekers dat AI-chefs zeer slecht waren in het benoemen van ingrediënten. Ze verzonnen ongeveer 5% tot 22% van de tijd nepnamen zoals "SuperSpice-9000". Een sluwe dief kon een kwaadaardig package met die nepnaam registreren, wachten tot een programmeur de AI erom vroeg, en de programmeer dan verleiden tot het installeren van een virus. Dit heet "slopsquatting".

De auteur van dit artikel, een onafhankelijk onderzoeker, vroeg zich af: "Is de AI hierin twee jaar later beter geworden?"

Hier is wat ze ontdekten, eenvoudig uitgelegd:

1. Het probleem met "nep-ingrediënten" is kleiner geworden, maar niet verdwenen

De onderzoekers testten de vijf slimste AI-programmeermodellen die begin 2026 beschikbaar waren (van bedrijven zoals Anthropic, OpenAI, Google en DeepSeek).

Het goede nieuws: De kloof tussen de "beste" AI en de "slechtste" AI is dramatisch kleiner geworden. In 2024 waren sommige AI's vreselijk (22% nepnamen) terwijl anderen acceptabel waren (5%). In 2026 zijn ze allemaal ongeveer gelijk: ze verzinnen allemaal ongeveer 4,6% tot 6,1% van de tijd nepnamen. De "spreiding" van slechtheid is ingestort.
Het slechte nieuws: De dreiging is nog steeds zeer reëel. Hoewel het percentage is gedaald, is 4–6% nog steeds hoog genoeg voor een dief om winst te maken. Als een AI één keer in de twintig keer een nepnaam verzint, kan een dief die nepnaam nog steeds registreren en wachten tot duizenden programmeurs het per ongeluk downloaden.

2. De ontdekking van "universele nepnamen"

Dit is de grootste verrassing van het artikel. De onderzoekers vonden 127 specifieke nepnamen die door alle vijf de top-AI-modellen werden verzonnen.

De analogie: Stel je voor dat je vijf verschillende expert-chefs vraagt: "Wat is het geheimzinnige ingrediënt in deze soep?" en ze zeggen allemaal onafhankelijk van elkaar: "Het is BlueFlavor-7," terwijl dat ingrediënt niet bestaat.
Het gevaar: Als een dief "BlueFlavor-7" één keer registreert, kan hij gebruikers van alle vijf AI-bedrijven tegelijk aanvallen. Het is een "universele valstrik" die niet afhankelijk is van welke AI je gebruikt.

3. Een paar vreemde draaiingen

Het artikel vond patronen die het tegenovergestelde waren van wat we verwachtten:

Python versus JavaScript: In 2024 was de AI slechter in het benoemen van JavaScript-ingrediënten. In 2026 is hij eigenlijk slechter in het benoemen van Python-ingrediënten. De AI lijkt in de war te raken door de rommelige benamingregels van Python.
De "kleine" versus de "grote" broer: Meestal maken kleinere, goedkopere AI-modellen meer fouten dan grote, dure modellen. Maar hier maakte het "kleine" model (Claude Haiku) in feite minder nepnamen dan zijn "grote broer" (Claude Sonnet). Het lijkt erop dat het kleine model was getraind om extra voorzichtig te zijn met instructies.

4. Waarom is het probleem kleiner geworden?

De auteur suggereert drie redenen waarom de AI nu iets beter is:

Het speelveld is gelijkgetrokken: De "open-source" modellen (gratis te gebruiken) zijn zo goed geworden dat ze nu even slim zijn als de "commerciële" modellen (betaald), waardoor de kloof tussen hen is gesloten.
Betere training: De bedrijven die de AI data voeden, lijken hun "kookboeken" (trainingsdata) te hebben schoongemaakt om meer nep-ingrediëntnamen te verwijderen.
Gestandaardiseerde training: Alle grote AI-bedrijven gebruiken nu vergelijkbare onderwijsmethoden, waardoor ze allemaal vergelijkbare (iets betere) fouten maken.

De conclusie

De AI-chefs hebben hun gedrag een beetje opgepoetst, maar ze verzinnen nog steeds vaak genoeg nep-ingrediënten om gevaarlijk te zijn. Het meest zorgwekkende deel is dat ze allemaal dezelfde nep-ingrediënten verzinnen.

Wat het artikel NIET zegt:

Het zegt niet dat dit een opgelost probleem is.
Het zegt niet dat je AI moet stoppen met gebruiken.
Het beweert niet dat alle AI-modellen slecht zijn (ze testten alleen de top 5 "frontier"-modellen; kleinere, oudere modellen kunnen nog steeds veel slechter zijn).

De belangrijkste boodschap van de auteur is: De reikwijdte van fouten is kleiner geworden, maar de dreiging blijft bestaan. Programmeurs en beveiligingsteams moeten zich bewust zijn dat zelfs de slimste AI's van vandaag je nog steeds kunnen leiden naar een nep, gevaarlijke download.

Technische Samenvatting: Herwaardering van LLM-pakket-hallucinaties op de Frontier-Modelcohort van 2026

Probleemstelling

Het artikel behandelt de beveiligingskwetsbaarheid die bekendstaat als slopsquatting, een aanvalsvectoren in de supply chain waarbij tegenstanders kwaadaardige pakketten registreren op PyPI of npm onder namen die door Large Language Models (LLM's) worden gehallucineerd. Wanneer ontwikkelaars LLM-genereren code vertrouwen die pip install- of npm install-instructies bevat voor niet-bestaande pakketten, installeren zij onbedoeld deze kwaadaardige artefacten.

Hoewel Spracklen et al. (USENIX Security '25) in 2024 het bestaan van deze bedreiging vaststelden, met hallucinatiepercentages variërend van 5,2% (commerciële modellen) tot 21,7% (open-source modellen), bleef het een open empirische vraag of dit fenomeen was geëvolueerd met de snelle vooruitgang van frontier-modellen die tussen eind 2025 en begin 2026 werden uitgebracht. Specifiek stelden de auteurs zich de vraag of de hallucinatiepercentages waren gedaald, of de variantie tussen modellen was ingekrompen, en of er nieuwe, model-agnostische aanvalsoppervlakken waren ontstaan.

Methodologie

De studie is een trouwe replicatie van de methodologie van Spracklen et al., toegepast op een nieuwe cohort van vijf frontier-code-capabele LLM's die tussen oktober 2025 en maart 2026 zijn uitgebracht:

Claude Sonnet 4.6 (Anthropic)
Claude Haiku 4.5 (Anthropic)
GPT-5.4-mini (OpenAI)
Gemini 2.5 Pro (Google)
DeepSeek V3.2 (DeepSeek)

Experimenteel Ontwerp:

Promptcorpus: De auteurs gebruikten de exacte promptdatasets uit het Spracklen-artefact (in totaal 576.000 prompts over 16 modellen in de oorspronkelijke studie), bestaande uit 20.163 Stack Overflow-vragen en 19.806 door LLM's gegenereerde vragen, gelijkmatig verdeeld tussen Python en JavaScript.
Generatie: Er werden in totaal 199.845 codevoorbeelden gegenereerd (ongeveer 39.969 per model).
Extractie en Validatie: Pakketreferenties werden geëxtraheerd met behulp van op regex gebaseerde heuristieken die overeenkwamen met pip install, npm install en importstatements. De geëxtraheerde namen werden gevalideerd tegen hoofdlijsten van bestaande pakketten voor PyPI (500.565 namen) en npm (~3 miljoen namen) per 28 april 2026.
Statistische Analyse: Hallucinatiepercentages werden berekend als de verhouding van niet-resolverende referenties tot het totaal aantal referenties. Statistische significantie werd getest met Pearson $\chi^2$ -statistieken met Holm–Bonferroni-correctie voor paarwijze vergelijkingen, samen met Jaccard-similariteitsmaten om de overlap in gehallucineerde namen te meten.

Belangrijkste Bijdragen

Replicatie op Frontier-modellen: Een uitgebreide meting van pakket-hallucinatiepercentages over vijf state-of-the-art modellen, waarmee een nieuwe baseline voor 2026 wordt gecreëerd.
Identificatie van Bereikcompressie: Documentatie van een significante inkrimping van de spreiding van hallucinaties tussen modellen in vergelijking met de gegevens van 2024.
Ontdekking van Universele Hallucinaties: De identificatie van een set van 127 pakketnamen (109 op PyPI, 18 op npm) die door alle vijf geëvalueerde modellen identiek worden gehallucineerd, wat een model-agnostisch aanvalsoppervlak vormt.
Observatie van Anomalieën:
- Een omkering van de Python/JavaScript-hallucinatieasymmetrie (Python-percentages zijn nu hoger).
- Een inversie binnen de Anthropic-familie waarbij het kleinere model (Haiku 4.5) minder hallucineert dan het grotere model (Sonnet 4.6).
- Een hoge Jaccard-similariteit (0,343) tussen DeepSeek V3.2 en GPT-5.4-mini, wat wijst op gedeelde oorsprong van trainingsdata of convergente foutpatronen.
Open Science-artefact: Publicatie van replicatiecode, validatielogboeken en analysescripts, met een toegangsbeleid voor geverifieerde onderzoekers voor het volledige hallucinatiecorpus.

Resultaten

Hallucinatiepercentages en Bereikcompressie

De studie vond dat hallucinatiepercentages binnen het cohort van 2026 variëren van 4,62% (Claude Haiku 4.5) tot 6,10% (GPT-5.4-mini).

Compressie: Dit vertegenwoordigt een 11-voudige inkrimping van de spreiding tussen modellen in vergelijking met de bevindingen van Spracklen uit 2024 (5,2%–21,7%).
Oorzaak: De compressie wordt toegeschreven aan het sluiten van de kloof tussen open-weight en commerciële modellen (bijvoorbeeld DeepSeek V3.2 is nu concurrerend met commerciële leiders) en de verzadiging van de curatie van trainingsdata met betrekking tot pakketreferenties.
Persistentie: Ondanks de compressie blijft de bedreiging economisch levensvatbaar voor tegenstanders, aangezien zelfs een percentage van 4,62% honderden unieke gehallucineerde namen per model oplevert.

Set van Universele Hallucinaties

Een cruciale bevinding is het bestaan van 127 pakketnamen die door alle vijf modellen worden gehallucineerd.

Betekenis: Dit creëert een "model-agnostisch" aanvalsoppervlak. Een aanvaller die een enkel kwaadaardig pakket registreert (bijvoorbeeld opentelemetry of @ember/service) kan gebruikers van elk van de vijf grote providers gelijktijdig aanvallen.
Mechanisme: De auteurs suggereren dat deze universele fouten voortkomen uit gedeelde substrings in trainingsdata (bijvoorbeeld documentatie die namen verkeerd gebruikt) of systematische overgeneralisatie van namespace-conventies (bijvoorbeeld het behandelen van interne subpakketten als installeerbare doelen).

Specifieke Anomalieën

Taalasymmetrie: In tegenstelling tot de bevindingen uit 2024, waarbij JavaScript "ruiziger" was, vertoonden alle vijf modellen uit 2026 hogere hallucinatiepercentages voor Python (+2,73 tot +4,13 procentpunten hoger dan JavaScript). De auteurs hypothetiseren dat dit te wijten is aan de heterogeenere naamgevingconventies van Python (snake_case, streepjes, punten) in vergelijking met de vlakkere structuur van JavaScript.
Anthropic-inversie: Binnen de Anthropic-familie hallucineerde Claude Haiku 4.5 (4,62%) significant minder dan Claude Sonnet 4.6 (5,41%). Dit staat in contrast met het gebruikelijke patroon waarbij kleinere modellen meer hallucineren. De auteurs schrijven dit toe aan de standaard "extended-thinking"-capaciteit van Haiku 4.5 en de specifieke nadruk na training op instructietrouw.
DeepSeek/OpenAI-convergentie: DeepSeek V3.2 en GPT-5.4-mini vertoonden de hoogste paarwijze Jaccard-similariteit (0,343), wat wijst op gedeelde bias of oorsprong van trainingsdata.

Betekenis en Claims

Het artikel concludeert dat hoewel het bereik van hallucinatiepercentages is gekrompen, de bedreiging niet is opgeheven.

Economische Levensvatbaarheid: Bij 4–7% blijft de slopsquatting-aanval zeer winstgevend voor tegenstanders vanwege de kosteloze aard van pakketregistratie.
Methodologische Verschuiving: De auteurs betogen dat studies met één enkel model onvoldoende zijn. Het bestaan van een set universele hallucinaties betekent dat het totale aanvalsoppervlak wordt onderschat als slechts één model wordt geëvalueerd. Analyse van kruis-cohort-intersecties moet een standaardmetriek worden in toekomstig beveiligingsonderzoek.
Verdedigingsimplicaties: De bevindingen benadrukken dat veiligheidspost-training en model-schaling de variantie hebben verminderd, maar het fundamentele probleem van modellen die convergeren naar specifieke, onjuiste pakketnamen niet hebben geëlimineerd. De auteurs benadrukken dat de "frontier" is samengedrukt, maar dat modellen op lager niveau binnen open-source mogelijk nog steeds de hoge percentages vertonen die in 2024 werden waargenomen.

De studie behoudt een bescheiden toon met betrekking tot haar claims, waarbij beperkingen worden opgemerkt zoals het potentieel voor lekken in trainingsdata (aangezien het promptcorpus in 2025 werd vrijgegeven) en de uitsluiting van agentische configuraties waarbij ophaalmechanismen hallucinaties zouden kunnen mitigeren. De primaire bijdrage is het empirische bewijs dat de slopsquatting-bedreiging blijft bestaan en is geëvolueerd tot een kwetsbaarheid over meerdere providers.

The Range Shrinks, the Threat Remains: Re-evaluating LLM Package Hallucinations on the 2026 Frontier-Model Cohort