The Range Shrinks, the Threat Remains: Re-evaluating LLM Package Hallucinations on the 2026 Frontier-Model Cohort

Dit artikel repliceert en breidt Spracklen et al.'s studie uit 2025 over hallucinaties van LLM-pakketten uit met behulp van vijf frontier-modellen uit 2026, en onthult dat hoewel de hallucinatiepercentages aanzienlijk zijn gedaald en de variantie tussen modellen is ingeperkt, een aanhoudende bedreiging blijft bestaan die wordt gekenmerkt door een nieuw geïdentificeerde set van 127 model-agnostische, gehallucineerde pakketnamen en onderscheidende gedragspatronen die zowel ecosysteem- als modeloverschrijdend zijn.

Oorspronkelijke auteurs: Aleksandr Churilov (Independent Researcher)

Gepubliceerd 2026-05-19✓ Author reviewed
📖 4 min leestijd☕ Koffiepauze-leesvoer

Oorspronkelijke auteurs: Aleksandr Churilov (Independent Researcher)

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je een chef-kok bent die een nieuw recept probeert te bereiden. Je vraagt hulp aan een super slimme, door AI aangedreven sous-chef. De sous-chef zegt zelfverzekerd: "Je moet SuperSpice-9000 kopen bij de supermarkt!" Je gaat naar de winkel, maar SuperSpice-9000 bestaat niet.

In de wereld van computerprogrammeren is deze "supermarkt" een digitaal magazijn dat PyPI (voor Python) of npm (voor JavaScript) heet. Deze magazijnen bevatten miljoenen kant-en-klare code-"ingrediënten" (packages) die programmeurs met één commando kunnen downloaden.

Dit artikel is een vervolg op een eng verhaal dat vorig jaar werd verteld. Destijds ontdekten onderzoekers dat AI-chefs zeer slecht waren in het benoemen van ingrediënten. Ze verzonnen ongeveer 5% tot 22% van de tijd nepnamen zoals "SuperSpice-9000". Een sluwe dief kon een kwaadaardig package met die nepnaam registreren, wachten tot een programmeur de AI erom vroeg, en de programmeer dan verleiden tot het installeren van een virus. Dit heet "slopsquatting".

De auteur van dit artikel, een onafhankelijk onderzoeker, vroeg zich af: "Is de AI hierin twee jaar later beter geworden?"

Hier is wat ze ontdekten, eenvoudig uitgelegd:

1. Het probleem met "nep-ingrediënten" is kleiner geworden, maar niet verdwenen

De onderzoekers testten de vijf slimste AI-programmeermodellen die begin 2026 beschikbaar waren (van bedrijven zoals Anthropic, OpenAI, Google en DeepSeek).

  • Het goede nieuws: De kloof tussen de "beste" AI en de "slechtste" AI is dramatisch kleiner geworden. In 2024 waren sommige AI's vreselijk (22% nepnamen) terwijl anderen acceptabel waren (5%). In 2026 zijn ze allemaal ongeveer gelijk: ze verzinnen allemaal ongeveer 4,6% tot 6,1% van de tijd nepnamen. De "spreiding" van slechtheid is ingestort.
  • Het slechte nieuws: De dreiging is nog steeds zeer reëel. Hoewel het percentage is gedaald, is 4–6% nog steeds hoog genoeg voor een dief om winst te maken. Als een AI één keer in de twintig keer een nepnaam verzint, kan een dief die nepnaam nog steeds registreren en wachten tot duizenden programmeurs het per ongeluk downloaden.

2. De ontdekking van "universele nepnamen"

Dit is de grootste verrassing van het artikel. De onderzoekers vonden 127 specifieke nepnamen die door alle vijf de top-AI-modellen werden verzonnen.

  • De analogie: Stel je voor dat je vijf verschillende expert-chefs vraagt: "Wat is het geheimzinnige ingrediënt in deze soep?" en ze zeggen allemaal onafhankelijk van elkaar: "Het is BlueFlavor-7," terwijl dat ingrediënt niet bestaat.
  • Het gevaar: Als een dief "BlueFlavor-7" één keer registreert, kan hij gebruikers van alle vijf AI-bedrijven tegelijk aanvallen. Het is een "universele valstrik" die niet afhankelijk is van welke AI je gebruikt.

3. Een paar vreemde draaiingen

Het artikel vond patronen die het tegenovergestelde waren van wat we verwachtten:

  • Python versus JavaScript: In 2024 was de AI slechter in het benoemen van JavaScript-ingrediënten. In 2026 is hij eigenlijk slechter in het benoemen van Python-ingrediënten. De AI lijkt in de war te raken door de rommelige benamingregels van Python.
  • De "kleine" versus de "grote" broer: Meestal maken kleinere, goedkopere AI-modellen meer fouten dan grote, dure modellen. Maar hier maakte het "kleine" model (Claude Haiku) in feite minder nepnamen dan zijn "grote broer" (Claude Sonnet). Het lijkt erop dat het kleine model was getraind om extra voorzichtig te zijn met instructies.

4. Waarom is het probleem kleiner geworden?

De auteur suggereert drie redenen waarom de AI nu iets beter is:

  1. Het speelveld is gelijkgetrokken: De "open-source" modellen (gratis te gebruiken) zijn zo goed geworden dat ze nu even slim zijn als de "commerciële" modellen (betaald), waardoor de kloof tussen hen is gesloten.
  2. Betere training: De bedrijven die de AI data voeden, lijken hun "kookboeken" (trainingsdata) te hebben schoongemaakt om meer nep-ingrediëntnamen te verwijderen.
  3. Gestandaardiseerde training: Alle grote AI-bedrijven gebruiken nu vergelijkbare onderwijsmethoden, waardoor ze allemaal vergelijkbare (iets betere) fouten maken.

De conclusie

De AI-chefs hebben hun gedrag een beetje opgepoetst, maar ze verzinnen nog steeds vaak genoeg nep-ingrediënten om gevaarlijk te zijn. Het meest zorgwekkende deel is dat ze allemaal dezelfde nep-ingrediënten verzinnen.

Wat het artikel NIET zegt:

  • Het zegt niet dat dit een opgelost probleem is.
  • Het zegt niet dat je AI moet stoppen met gebruiken.
  • Het beweert niet dat alle AI-modellen slecht zijn (ze testten alleen de top 5 "frontier"-modellen; kleinere, oudere modellen kunnen nog steeds veel slechter zijn).

De belangrijkste boodschap van de auteur is: De reikwijdte van fouten is kleiner geworden, maar de dreiging blijft bestaan. Programmeurs en beveiligingsteams moeten zich bewust zijn dat zelfs de slimste AI's van vandaag je nog steeds kunnen leiden naar een nep, gevaarlijke download.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →