Detecting Cryptographically Relevant Software Packages with Collaborative LLMs

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ De Digitale Schatkist: Hoe AI helpt bij het vinden van geheime sloten

Stel je voor dat een groot bedrijf een enorme, oude kasteelachtige bibliotheek heeft. In deze bibliotheek staan miljoenen boeken (softwarepakketten). Sommige boeken bevatten gewone verhalen, maar andere bevatten geheime sleutels, sloten en beveiligingsplannen (cryptografie).

Het probleem? Er zijn zoveel boeken dat het onmogelijk is voor een mens om ze allemaal één voor één te lezen en te controleren of er een slot in zit. En als er een nieuw soort "quantum-dief" komt die oude sloten openbreekt, moet je snel weten welke boeken die sloten bevatten, zodat je ze kunt vervangen.

Dit onderzoek van de auteurs (Eduard, Kristina, Tobias en Daniel) zoekt naar een slimme manier om die boeken te vinden zonder dat je duizenden mensen nodig hebt.

1. De Oplossing: Een Team van Slimme Robots (LLMs)

In plaats van één super-slimme robot (een groot AI-model) te gebruiken, hebben de onderzoekers een team van vijf verschillende robots opgestart.

De Robots: Dit zijn "Large Language Models" (LLMs). Denk hierbij aan slimme assistenten die alles hebben gelezen op internet en heel goed begrijpen wat er in een boek staat.
De Taak: Ze krijgen een lijst met boektitels en korte beschrijvingen. Hun opdracht is simpel: "Zit er in dit boek een gevaarlijk of belangrijk slot?"

2. Waarom een Team? (Het "Meerderheidsstem"-Principe)

Elke robot is een beetje anders. Soms is de ene robot slordig, soms is de andere te voorzichtig.

Het idee: Als je één robot vraagt, kan die een fout maken. Maar als je vijf robots vraagt en je kijkt naar wat de meerderheid zegt, wordt het antwoord veel betrouwbaarder.
De Analogie: Stel je voor dat je een raadsel hebt. Als één vriend zegt "Het is blauw", twijfel je. Maar als drie van je vijf vrienden zeggen "Het is blauw", ben je er bijna zeker van.
Privacy: Belangrijk detail: Deze robots draaien lokaal op de computers van het bedrijf (on-premises). Ze sturen geen gegevens naar de cloud of naar een groot tech-bedrijf. Het is alsof je een team van experts in je eigen kelder hebt, zodat niemand anders je geheime plannen kan zien.

3. Het Experiment: De "Fedora" Bibliotheek

Om te testen of dit werkt, hebben ze gekeken naar 65.000 boeken uit de Fedora Linux-wereld (een populair besturingssysteem).

Ze gaven de robots de titels en beschrijvingen van deze 65.000 pakketten.
De robots moesten stemmen: "Ja, dit heeft cryptografie" of "Nee, dit niet".

4. De Uitdagingen en Verbeteringen

Aan het begin waren de robots niet perfect.

Foutjes: Soms schreef een robot een antwoord in een rommelig formaat dat de computer niet kon lezen (alsof een robot in een vreemde taal fluistert).
De Oplossing: De onderzoekers leerden de robots beter te praten door hun instructies (de "prompt") te verbeteren. Ze maakten de vragen duidelijker en leerden de computer hoe hij de rommelige antwoorden toch kon opschonen.
Resultaat: Na het verbeteren van de instructies, werden de robots veel slimmer. Het team van robots kon nu bijna net zo goed presteren als de duurste, online beschikbare robots van grote tech-bedrijven, maar dan zonder dat je je data deelt.

5. Wat hebben ze ontdekt?

Groot is niet altijd beter: De grootste, zwaarste robot was niet per se de slimste. Soms was een kleinere, snellere robot juist beter in het vinden van de sloten.
Samenwerking werkt: Door de antwoorden van meerdere robots te combineren, kregen ze een heel betrouwbaar resultaat.
Efficiëntie: Dit systeem fungeert als een eerste filter. Het sorteert de 65.000 boeken en zegt: "Deze 10.000 boeken hebben waarschijnlijk sloten, die moeten jullie mensen even handmatig controleren." Dit bespaart enorm veel tijd.

🎯 Conclusie in één zin

Dit onderzoek toont aan dat je met een team van lokale, slimme robots die samenwerken, snel en veilig kunt vinden welke software in je systeem beveiliging gebruikt, zonder dat je je privacy riskeert of duizenden mensen nodig hebt. Het is als het hebben van een super-snel team van detectives dat je helpt je kasteel veilig te maken tegen nieuwe dieven.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Detecting Cryptographically Relevant Software Packages with Collaborative LLMs", geschreven in het Nederlands.

Probleemstelling

Organisaties staan onder toenemende druk om hun cryptografische infrastructuur aan te passen aan nieuwe bedreigingen, zoals geavanceerde persistente aanvallen en de opkomst van kwantumcomputers (die klassieke cryptografie kunnen breken). Om crypto-agiliteit te bereiken (het vermogen om snel te schakelen naar post-kwantumcryptografie), is een betrouwbaar inventaris van alle cryptografische activa (crypto-assets) binnen heterogene IT-omgevingen essentieel.

De huidige uitdagingen zijn:

Schaal: IT-systemen bevatten tienduizenden softwarepakketten met complexe transitive afhankelijkheden.
Beperkingen van bestaande methoden: Manuele inspectie is onmogelijk. Traditionele statische code-analyse (zoals SonarQube) faalt vaak door de diversiteit van ecosystemen, programmeertalen en het gebrek aan grondige kennis van cryptografische patronen in binaries.
Privacy: Veel organisaties kunnen geen cloud-LLMs gebruiken vanwege gevoelige data, wat een oplossing op locatie (on-premises) vereist.

Methodologie

De auteurs stellen een collaboratief framework voor dat gebruikmaakt van meerdere Large Language Models (LLMs) om cryptografisch relevante software te identificeren. Het proces verloopt als volgt:

Dataverzameling: Er is een dataset van 65.295 Fedora Linux-pakketten verzameld, inclusief naam, beschrijving en eerste-niveau afhankelijkheden.
Prompt Engineering: Voor elk pakket wordt een prompt gegenereerd die de LLM vraagt of het pakket cryptografische functionaliteit implementeert of afhankelijk is van cryptografische bibliotheken. De prompts zijn geoptimaliseerd (o.a. few-shot prompting, instructie-prompting) en vragen om een gestructureerde JSON-uitvoer.
Modelselectie: Vijf lokale, open-source LLMs worden gebruikt om privacy te waarborgen (geen externe servers):
- GPT4All-framework: phi-3-mini, Meta-Llama-3-8B, Nous-Hermes-2-Mistral-7B, gpt4all-13b.
- Ollama-server: DeepSeek R1.
Aggregatie (Majority Vote): De antwoorden van de modellen worden geaggregeerd via een meerderheidsstemmechanisme. Een pakket wordt als cryptografisch relevant beschouwd als ten minste $\lfloor n/2 \rfloor + 1$ modellen (bij 5 modellen dus 3) "True" stemmen.
Validatie: Een stratified steekproef van 390 pakketten is handmatig gevalideerd om een "ground truth" te creëren voor het evalueren van de prestaties.

Belangrijkste Bijdragen

On-premises Oplossing: Het framework werkt volledig lokaal, wat cruciaal is voor organisaties met strikte privacy- en beveiligingsvereisten.
Collaboratieve Validatie: Het gebruik van een meerderheidsstem-strategie tussen meerdere heterogene modellen verhoogt de betrouwbaarheid, zelfs zonder grondige waarheid (ground truth) voor de volledige dataset.
Iteratieve Optimalisatie: De auteurs tonen aan dat het aanpassen van prompts per model (bijv. kortere prompts voor kleinere modellen, gedetailleerdere voor grotere) en het verbeteren van de JSON-parsing significant de prestaties verbetert.
Open Source: Alle code en data zijn beschikbaar gesteld (OTH-AMiQuaSy) voor reproduceerbaarheid.

Resultaten

De studie omvatte een statistische analyse en een handmatige validatie:

Initiële Prestaties: Zonder optimalisatie presteerden de lokale modellen en de meerderheidsstem matig (F1-score van ~0.72 voor de meerderheidsstem).
Optimalisatie-effect: Na het verfijnen van prompts, het verbeteren van de JSON-parsing (om fouten in opmaak te corrigeren) en het her-queryen van modellen met een hogere 'temperature', steeg de prestatie aanzienlijk.
- De geoptimaliseerde meerderheidsstem bereikte een F1-score van 0.86 (met een recall van 0.95).
- De beste individuele lokale model (DeepSeek) bereikte een F1-score van 0.84.
Vergelijking met Cloud-modellen: Online modellen (zoals GPT-5, Gemini) presteerden iets beter (F1 ~0.86), maar het verschil was marginaal (3-9%). Dit bevestigt dat goed geoptimaliseerde lokale modellen concurrerend kunnen zijn.
Afhankelijkheid van Modellen: Een statistische analyse toonde aan dat de modellen niet volledig onafhankelijk zijn (correlatie $\rho \approx 0.52$ ). Dit betekent dat het toevoegen van meer dan 3-5 modellen weinig extra winst oplevert, omdat de "effectieve steekproefgrootte" verzadigt rond de 1.6-1.7.
Modelgrootte: Er is geen directe correlatie tussen modelgrootte en prestatie. Kleinere modellen (zoals phi) presteerden soms beter op recall dan grotere modellen.

Betekenis en Toekomstperspectief

Dit onderzoek bewijst dat LLM-ensembles een efficiënte eerste filter kunnen zijn voor het identificeren van cryptografische software in grote, complexe systemen.

Praktische Toepassing: De methode verlaagt de manuele werklast aanzienlijk en helpt organisaties bij de overgang naar post-kwantumcryptografie (PQC) door gerichte code-reviews en afhankelijkheidsscans mogelijk te maken.
Beperkingen: De methode is afhankelijk van de kwaliteit van pakketbeschrijvingen en afhankelijkheden. Pakketten met vage documentatie kunnen verkeerd worden geclassificeerd.
Toekomstig Werk: De auteurs werken aan een prototype dat dit framework integreert in een breder ecosysteem voor cryptografische asset discovery, met als doel het genereren van gedetailleerde Cryptographic Bills of Materials (CBOMs) en het extraheren van specifieke cryptografische primitieven.

Kortom, de paper biedt een robuust, privacy-bewust en schaalbaar alternatief voor traditionele statische analyse, waarbij collaboratieve LLMs de complexiteit van moderne software-ecosystemen effectief aanpakken.

Detecting Cryptographically Relevant Software Packages with Collaborative LLMs

🕵️‍♂️ De Digitale Schatkist: Hoe AI helpt bij het vinden van geheime sloten

1. De Oplossing: Een Team van Slimme Robots (LLMs)

2. Waarom een Team? (Het "Meerderheidsstem"-Principe)

3. Het Experiment: De "Fedora" Bibliotheek

4. De Uitdagingen en Verbeteringen

5. Wat hebben ze ontdekt?

🎯 Conclusie in één zin

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Toekomstperspectief

Meer zoals dit

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities