TOSSS: a CVE-based Software Security Benchmark for Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, digitale assistent hebt die alles kan schrijven: van e-mails tot complexe computerprogramma's. Dit zijn de LLMs (Large Language Models), de "super-intelligente" AI's waar veel bedrijven nu van dromen. Ze kunnen code schrijven alsof ze een ervaren programmeur zijn.

Maar hier zit een addertje onder het gras: Is deze AI ook veilig?

Stel je voor dat je een chef-kok hebt die fantastisch kan koken, maar soms per ongeluk giftige paddenstoelen in de soep doet. Dat is precies wat deze paper onderzoekt. De auteurs, een groep onderzoekers uit Nederland, Frankrijk en de VS, hebben een nieuwe test bedacht om te zien of deze AI's echt veilig code kunnen maken of dat ze juist gevaarlijke fouten (kwetsbaarheden) inbouwen.

Hier is de uitleg van hun onderzoek, vertaald naar alledaags taalgebruik:

1. Het probleem: De oude tests werken niet meer

Vroeger vroegen onderzoekers aan de AI: "Schrijf een programma dat een wachtwoord bewaakt." Vervolgens keken ze of het programma veilig was.
Het probleem hiermee is als het controleren van een auto door te kijken of hij misschien een band lek heeft. Het is lastig, duur en je kunt niet snel nieuwe soorten bandenproblemen toevoegen. Als er morgen een nieuw soort lek ontdekt wordt, moet je de hele test opnieuw uitvinden.

2. De oplossing: TOSSS (De "Kies de Veilige Optie"-test)

De auteurs hebben een slimme nieuwe test bedacht, genaamd TOSSS. In plaats van de AI te vragen om iets nieuks te bouwen, geven ze de AI een keuze.

De analogie:
Stel je voor dat je een huis wilt bouwen. De AI krijgt twee blauwdrukken:

Optie A: Een huis met een deur die altijd open staat (gevaarlijk).
Optie B: Een huis met een stevige slot op de deur (veilig).

De AI moet zeggen: "Ik kies voor A" of "Ik kies voor B".

Als de AI consequent B kiest, is hij veilig.
Als hij A kiest, is hij een risico.
Als hij willekeurig kiest, is hij net zo goed als een muntje opgooien.

Dit is veel makkelijker te testen dan het bouwen van een heel huis. Je kunt duizenden van deze "blauwdrukken" (paren van veilige en onveilige code) maken en de AI erdoorheen laten lopen.

3. Waar komen de tests vandaan? (De "MegaVul"-schattenjacht)

Hoe maken ze deze tests? Ze gebruiken een enorme database met alle bekende software-fouten ter wereld, de CVE-database.
Stel je voor dat ze een schatkaart hebben van alle dieven die ooit in huizen zijn ingebroken. Ze kijken naar een inbraak (een fout), en kijken hoe de eigenaar het later heeft opgelost (de veilige code).

De versie voor de oplossing is de "gevaarlijke" optie.
De versie na de oplossing is de "veilige" optie.

Omdat ze dit automatisch doen met een computerprogramma, kunnen ze elke dag nieuwe inbraken toevoegen aan hun test. De test groeit dus mee met de wereld, zonder dat mensen handmatig alles hoeven te schrijven.

4. Wat hebben ze ontdekt? (De resultaten)

Ze hebben 14 verschillende AI-modellen getest (zowel die van grote tech-bedrijven als open-source modellen) op code in C/C++ en Java.

De winnaars: Sommige AI's (zoals GLM-5 en GPT-5.4) waren heel goed. Ze kozen bijna altijd de veilige optie (een score van bijna 1,0).
De verliezers: Andere AI's deden het slecht. Sommigen kozen zelfs vaker de gevaarlijke optie dan de veilige (een score onder de 0,5). Dat is alsof ze bewust de sleutel onder de mat leggen voor de dief.
De verrassing: De AI's die speciaal zijn getraind om code te schrijven (zoals Codestral) deden het niet per se beter dan de algemene AI's. Soms deden ze het zelfs slechter! Het lijkt erop dat ze zo gefocust zijn op "werkend" maken, dat ze vergeten om "veilig" te maken.

De "Hint"-effect:
Toen de onderzoekers de AI's expliciet vroegen: "Kies de veiligste optie!", werden de meeste AI's beter. Maar sommige werden juist slechter! Alsof ze in paniek raakten als je ze te specifiek vraagt. Dit betekent dat we AI-assistenten misschien bewust moeten vragen om op veiligheid te letten, anders doen ze het niet vanzelf.

5. Waarom is dit belangrijk?

Vroeger was het lastig om te zeggen: "Deze AI is veilig." Nu hebben we een meetlat (TOSSS) die dat kan.

Voor bedrijven: Ze kunnen nu kijken welke AI ze veilig kunnen gebruiken in hun systemen.
Voor de toekomst: Omdat de test automatisch nieuwe fouten toevoegt, blijft hij altijd actueel. Het is als een alarm dat automatisch update als er een nieuw type inbraak wordt ontdekt.

Conclusie

Deze paper zegt eigenlijk: "Laat de AI niet alleen maar bouwen, laat hem ook kiezen."
Door AI's te testen op het kiezen tussen een veilige en een onveilige optie, krijgen we een eerlijk en snel beeld van hoe veilig ze zijn. En het goede nieuws? Met de juiste instructies ("Kies de veilige optie!") kunnen we de meeste AI's aanzienlijk veiliger maken.

De onderzoekers hebben hun test gratis beschikbaar gesteld, zodat iedereen het kan gebruiken. Het is een belangrijke stap om te voorkomen dat onze digitale wereld vol komt te staan met software die per ongeluk een open deur is voor hackers.

TOSSS: a CVE-based Software Security Benchmark for Large Language Models

1. Het probleem: De oude tests werken niet meer

2. De oplossing: TOSSS (De "Kies de Veilige Optie"-test)

3. Waar komen de tests vandaan? (De "MegaVul"-schattenjacht)

4. Wat hebben ze ontdekt? (De resultaten)

5. Waarom is dit belangrijk?

Conclusie

Probleemstelling

Methodologie: TOSSS

Belangrijkste Bijdragen

Experimentele Resultaten

Betekenis en Conclusie

TOSSS: a CVE-based Software Security Benchmark for Large Language Models

1. Het probleem: De oude tests werken niet meer

2. De oplossing: TOSSS (De "Kies de Veilige Optie"-test)

3. Waar komen de tests vandaan? (De "MegaVul"-schattenjacht)

4. Wat hebben ze ontdekt? (De resultaten)

5. Waarom is dit belangrijk?

Conclusie

Probleemstelling

Methodologie: TOSSS

Belangrijkste Bijdragen

Experimentele Resultaten

Betekenis en Conclusie

Meer zoals dit

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models