Malicious Or Not: Adding Repository Context to Agent Skill Classification

Each language version is independently generated for its own context, not a direct translation.

Titel: De "App Store" voor AI-agenten: Waarom de meeste waarschuwingen vals zijn en hoe we de echte boeven vinden

Stel je voor dat je een slimme robot-assistent hebt (zoals een geavanceerde chatbot die echt werk voor je kan doen, zoals e-mails schrijven of code programmeren). Om deze robot nog slimmer te maken, kun je hem "vaardigheden" (skills) geven. Denk hierbij aan extra apps die je op je telefoon installeert: één app kan je weer voorspellen, een andere kan je bankafschrift lezen.

Deze vaardigheden worden gedeeld via speciale marktplaatsen, net zoals de App Store of Google Play. Maar er is een groot probleem: veel mensen zijn bang dat deze vaardigheden virussen bevatten.

Dit onderzoek van Florian Holzbauer en zijn team gaat over precies dat probleem. Hier is wat ze hebben ontdekt, vertaald naar simpele taal:

1. De Paniek in de Supermarkt

Stel je een supermarkt voor waar mensen hun eigen zelfgemaakte sauzen verkopen. De supermarktmanager kijkt naar elke fles en zegt: "Oeps, deze ziet er verdacht uit!"

De ene manager zegt: "47% van al deze sauzen is giftig!"
De andere zegt: "23% is giftig!"
Een derde zegt: "6% is giftig!"

Dit is wat er gebeurt met AI-vaardigheden. Verschillende scanners (de managers) scannen de beschrijvingen van de vaardigheden en roepen dat bijna de helft van alles kwaadaardig is. Dat klinkt als een enorme crisis.

2. De Grote Misverstand (De Valse Alarmen)

De onderzoekers dachten: "Wacht even, dat kan niet kloppen. Als de helft van alles giftig is, waarom gebruiken mensen dit dan nog?"

Ze besloten om niet alleen naar de fles te kijken (de beschrijving), maar ook naar wie de fles heeft gemaakt en waar hij vandaan komt. Ze keken naar de hele "keuken" (de GitHub-repository) waar de vaardigheid is gemaakt.

Het resultaat was verbluffend:
Toen ze de context meenamen, bleek dat 99,5% van de "giftige" sauzen eigenlijk gewoon onschuldig was!

De scanners waren bang voor een scherp mes in de keuken, maar dat mes werd gebruikt om een taart te snijden, niet om iemand te steken.
Door naar de hele context te kijken, daalde het percentage van "gevaarlijk" van 46% naar slechts 0,5%. De scanners hadden dus heel veel onschuldige mensen per ongeluk gearresteerd.

3. De Echte Gevaren: De Verlaten Huisjes

Hoewel de meeste waarschuwingen vals waren, vonden ze wel een paar echte gevaren die niemand eerder zag.

Stel je voor dat je een vaardigheid downloadt die verwijst naar een verlaten huisje op een hoek. De oorspronkelijke eigenaar is vertrokken en heeft het sleutelbord niet opgeleverd. Een boef kan dan het huisje overnemen, de naam veranderen en er een valstrik in zetten.

De onderzoekers ontdekten dat hackers dit precies doen met verlaten GitHub-repositories. Ze "hijacken" (kappen) deze verlaten plekken en steken er kwaadaardige vaardigheden in.
Ze vonden 121 vaardigheden die zo'n valstrik waren. Een daarvan was zelfs al meer dan 1.000 keer gedownload! Dit is een nieuw soort aanval dat ze nu kunnen blokkeren.

4. De Leuke Verjaardagskaarten (En de Privacy-lekkage)

Tijdens hun onderzoek vonden ze nog iets vreemds. De marktplaats "ClawHub" gaf per ongeluk de privé-e-mailadressen van de makers prijs, zelfs als die niet openbaar waren. Dat is alsof je een verjaardagskaartje koopt en er staat per ongeluk het telefoonnummer van de maker op. Dat is een privacy-risico.

Samenvatting in één zin

Deze studie zegt: "Stop met paniekzaaien! De meeste AI-vaardigheden zijn veilig. We moeten niet alleen naar de verpakking kijken, maar ook naar de maker en de omgeving. Als we dat doen, zien we dat het systeem veel veiliger is dan gedacht, maar we moeten wel oppassen voor verlaten 'huisjes' die hackers kunnen overnemen."

De belangrijkste lessen voor jou:

Vertrouw niet blind op alarmsystemen: Ze roepen vaak te snel "Gevaar!" als ze alleen naar de tekst kijken.
Kijk naar de context: Is de vaardigheid gemaakt door een bekende ontwikkelaar? Past hij bij de rest van de code? Dan is het waarschijnlijk veilig.
Pas op voor verlaten plekken: Als een vaardigheid verwijst naar een project dat al jaren niet meer is bijgewerkt, wees dan extra voorzichtig.

Malicious Or Not: Adding Repository Context to Agent Skill Classification

1. De Paniek in de Supermarkt

2. De Grote Misverstand (De Valse Alarmen)

3. De Echte Gevaren: De Verlaten Huisjes

4. De Leuke Verjaardagskaarten (En de Privacy-lekkage)

Samenvatting in één zin

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Malicious Or Not: Adding Repository Context to Agent Skill Classification

1. De Paniek in de Supermarkt

2. De Grote Misverstand (De Valse Alarmen)

3. De Echte Gevaren: De Verlaten Huisjes

4. De Leuke Verjaardagskaarten (En de Privacy-lekkage)

Samenvatting in één zin

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Exploration and Exploitation Errors Are Measurable for Language Model Agents

SciFi: A Safe, Lightweight, User-Friendly, and Fully Autonomous Agentic AI Workflow for Scientific Applications

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Optimizing Earth Observation Satellite Schedules under Unknown Operational Constraints: An Active Constraint Acquisition Approach

WebXSkill: Skill Learning for Autonomous Web Agents