Evaluating Large Language Models for Multilingual Vulnerability Detection at Dual Granularities

Each language version is independently generated for its own context, not a direct translation.

Hier is een uitleg van dit wetenschappelijke artikel, vertaald naar begrijpelijk Nederlands met behulp van alledaagse vergelijkingen.

De Hoofdverhaal: Op zoek naar de perfecte "Code-Inspecteur"

Stel je voor dat software een enorme stad is, gebouwd met verschillende soorten bouwstenen (programmeertalen zoals Python, Java, C++, etc.). In deze stad zijn er soms verborgen valkuilen of slechte constructies: kwetsbaarheden. Als hackers deze vinden, kunnen ze de stad binnendringen en schade aanrichten.

Vroeger hadden we automatische inspecteurs (de zogenaamde Pre-trained Language Models of PLMs). Deze inspecteurs waren slim, maar ze waren gespecialiseerd in één taal (meestal C/C++) en keken vaak alleen naar het hele gebouw (de functie) in plaats van naar de specifieke losse baksteen (de regel code) waar het probleem zat.

Nu zijn er nieuwe, super-slimme inspecteurs opgedoken: de Grote Taalmodellen (LLMs), zoals GPT-4o. Deze zijn getraind op bijna alle talen ter wereld en kunnen heel goed begrijpen wat er gebeurt. Maar de vraag was: Zijn deze nieuwe inspecteurs ook echt beter in het vinden van fouten in een stad met veel verschillende talen, en kunnen ze de fouten ook precies lokaliseren?

De auteurs van dit paper hebben een grote test uitgevoerd om dit te beantwoorden.

De Test: Een enorme zoektocht door 7 steden

De onderzoekers hebben een gigantische database gebruikt met 30.000 echte reparaties van softwarefouten. Ze hebben gekeken naar zeven verschillende programmeertalen (C, C++, C#, Go, Java, JavaScript en Python).

Ze hebben de inspecteurs op twee manieren getest:

Op het niveau van het hele gebouw (Functie-niveau): "Is er ergens in dit stukje code een gevaar?"
Op het niveau van de losse baksteen (Regel-niveau): "Welke exacte regel is het gevaarlijk?"

Ze hebben verschillende strategieën gebruikt om de inspecteurs te helpen:

Zomaar vragen (Zero-shot): "Kijk hier, is dit gevaarlijk?"
Voorbeelden geven (Few-shot): "Kijk naar deze drie voorbeelden van gevaarlijke code, en zoek dan de fout in dit nieuwe stukje."
Opleiding geven (Instruction Tuning): De inspecteur eerst intensief trainen met duizenden voorbeelden en instructies, en dan pas de test laten doen.

De Resultaten: Wie wint er?

Hier zijn de belangrijkste bevindingen, vertaald naar simpele taal:

1. De oude inspecteurs (PLMs) zijn goed, maar niet perfect

De traditionele modellen (zoals CodeT5P) deden het redelijk goed. Ze waren als ervaren metselaars die veel gebouwen hadden gezien. Maar ze maakten vaak fouten: ze dachten soms dat een veilig gebouw gevaarlijk was (veel vals alarm) of misten soms de echte gevaarlijke plekken.

2. De nieuwe inspecteurs (LLMs) hebben een "opleiding" nodig

Als je de super-slimme modellen (zoals GPT-4o) gewoon vroeg om te kijken zonder training of voorbeelden, deden ze het vaak slecht. Het was alsof je een briljante architect vraagt om een bouwinspectie te doen zonder hem de regels van de bouwcode te laten zien. Ze raakten in de war.

Maar... zodra je ze opleiding gaf (Instruction Tuning) en ze voorbeelden liet zien (Few-shot), werden ze onverslaanbaar.

De winnaar: GPT-4o met deze extra training was veruit de beste.
Het vond niet alleen meer fouten dan de oude modellen, maar maakte ook veel minder vals alarm.
Het was zelfs beter in het vinden van de exacte regel code die kapot was, iets waar de oude modellen vaak in faalden.

3. Groter is niet altijd beter

Je zou denken dat een nog groter model (met meer "hersenen") automatisch beter is. De onderzoekers hebben gekeken naar modellen met 70 miljard parameters versus kleinere versies.

Conclusie: De grootte maakt niet alles uit. Een slimme instructie en goede training waren belangrijker dan alleen maar groter zijn. Soms waren de kleinere modellen zelfs beter, omdat ze minder "verward" raakten.

4. Redeneren helpt niet altijd

Er zijn nieuwe modellen die "redeneren" (ze denken stap voor stap na voordat ze antwoorden). Je zou denken dat dit perfect is voor complexe veiligheidsproblemen.

Conclusie: Voor het vinden van softwarefouten hielp dit "redeneren" niet echt. Het duurde langer, maar leverde geen significant betere resultaten op. Soms was het zelfs net zo goed als een snelle, intuïtieve inspecteur.

5. Kosten: De dure API vs. de lokale computer

Het gebruik van de slimste modellen (zoals GPT-4o) via internet kost geld (per woord dat je stuurt). Het trainen van je eigen model op een eigen computer kost een keer een dure videokaart, maar daarna is het goedkoper.

Voor grote bedrijven met eigen hardware kan het trainen van een eigen model goedkoper zijn.
Voor kleinere teams of snelle tests is het gebruik van de slimme API (zoals GPT-4o) vaak de beste keuze vanwege de superieure prestaties.

De Grootste Les: Waarom is dit belangrijk?

Stel je voor dat je een beveiligingscontrole doet in een internationaal vliegveld waar mensen uit heel verschillende landen (verschillende programmeertalen) komen.

De oude systemen waren als een controleur die alleen Duitse paspoorten goed kon lezen. Hij miste veel fouten bij andere talen.
De nieuwe systemen (GPT-4o met training) zijn als een controleur die alle talen spreekt, de regels kent, en je precies kan vertellen welke regel in je paspoort niet klopt.

De conclusie van het paper:
We moeten stoppen met alleen te kijken naar één programmeertaal. De toekomst van softwareveiligheid ligt bij het gebruik van deze nieuwe, getrainde AI-modellen die in staat zijn om fouten te vinden in elke taal, op elk detailniveau. Ze zijn niet perfect, maar ze zijn een enorme stap vooruit in het veilig houden van onze digitale wereld.

Kortom: Geef de slimme AI een goede training en voorbeelden, en hij wordt de beste beveiligingsagent die we ooit hebben gehad.

Evaluating Large Language Models for Multilingual Vulnerability Detection at Dual Granularities

De Hoofdverhaal: Op zoek naar de perfecte "Code-Inspecteur"

De Test: Een enorme zoektocht door 7 steden

De Resultaten: Wie wint er?

1. De oude inspecteurs (PLMs) zijn goed, maar niet perfect

2. De nieuwe inspecteurs (LLMs) hebben een "opleiding" nodig

3. Groter is niet altijd beter

4. Redeneren helpt niet altijd

5. Kosten: De dure API vs. de lokale computer

De Grootste Les: Waarom is dit belangrijk?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Evaluating Large Language Models for Multilingual Vulnerability Detection at Dual Granularities

De Hoofdverhaal: Op zoek naar de perfecte "Code-Inspecteur"

De Test: Een enorme zoektocht door 7 steden

De Resultaten: Wie wint er?

1. De oude inspecteurs (PLMs) zijn goed, maar niet perfect

2. De nieuwe inspecteurs (LLMs) hebben een "opleiding" nodig

3. Groter is niet altijd beter

4. Redeneren helpt niet altijd

5. Kosten: De dure API vs. de lokale computer

De Grootste Les: Waarom is dit belangrijk?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities