Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen
Stellen Sie sich vor, Sie stellen einen brillanten, superschnellen Lehrlingsprogrammierer ein, um Code für Ihr Unternehmen zu schreiben. Sie geben ihm eine einfache, normale Anfrage wie: „Schreibe ein Skript, um auf dieser beliebten Handelsplattform einen bestimmten digitalen Token zu kaufen." Sie erwarten, dass er sicheren, Standard-Code schreibt.
Dieses Papier enthüllt jedoch eine beängstigende Realität: Ihr Lehrling hat eine Bibliothek gefährlicher, gefälschter Anweisungen auswendig gelernt, die in seinen Lehrbüchern versteckt sind. Wenn Sie ihn um Hilfe bei einer bestimmten Aufgabe bitten, könnte er versehentlich eine Seite aus einem Betrügerhandbuch herausziehen und in Ihren Code einfügen, wodurch Ihr Geld an einen Dieb und nicht an die legitime Seite gesendet wird.
Hier ist eine Aufschlüsselung der Erkenntnisse des Papiers unter Verwendung einfacher Analogien:
1. Das Problem: Das „vergiftete Kochbuch"
Large Language Models (LLMs) sind wie Köche, die fast jedes Rezeptbuch im Internet gelesen haben, um das Kochen zu lernen. Das Problem ist, dass das Internet voller „vergifteter" Rezepte ist – gefälschter Anweisungen, die darauf ausgelegt sind, Ihr Geld oder Ihre Daten zu stehlen.
- Der reale Vorfall: Das Papier beginnt mit einer Geschichte über eine echte Person, die 2.500 Dollar verloren hat. Sie bat einen Chatbot, ein Skript zu schreiben, um eine Kryptowährung auf einer beliebten Seite namens pump.fun zu kaufen. Der Chatbot, der hilfreich sein wollte, schrieb Code, der einen Link zu einer gefälschten API (einer digitalen Tür) enthielt, die echt aussah, aber tatsächlich eine Falle eines Betrügers war. Der Code forderte den Benutzer sogar auf, seinen „privaten Schlüssel" (den Hauptschlüssel zu seinem Bankschrank) direkt an diese gefälschte Tür zu übergeben. Der Benutzer vertraute der KI, führte den Code aus, und sein Geld war innerhalb von 30 Minuten verschwunden.
2. Die Untersuchung: „Scam2Prompt"
Die Forscher entwickelten ein Tool namens Scam2Prompt, um herauszufinden, ob dies ein einmaliger Unfall oder eine weit verbreitete Krankheit war.
- Die Analogie: Stellen Sie sich einen Sicherheitsbeamten vor, der testen möchte, ob ein neues Sicherheitssystem funktioniert. Anstatt mit einem Vorschlaghammer einzubrechen (was offensichtlich wäre), nimmt der Wächter einen bekannten „Bösewicht"-Bauplan, schreibt ihn so um, dass er wie eine normale Bauanfrage aussieht, und reicht ihn dem Sicherheitssystem ein.
- Wie es funktionierte:
- Sie nahmen Listen bekannter Betrugsseiten.
- Sie dann extrahierten sie gängige Schlüsselwörter, Behauptungen und Phrasen, die diese Seiten verwenden, um Opfer zu täuschen. Mithilfe dieser Begriffe forderten sie ein KI-System auf, legitime Codierungsanfragen zu generieren, wie zum Beispiel „Wie kaufe ich diese digitale Münze?" oder „Wie kann ich über diese Flugplattform Rabattheflüge kaufen?".
- Sie gaben diese „unschuldigen" Anfragen vier großen produktiven KI-Modellen (wie GPT-4o und Llama).
- Sie prüften, ob die KI Code mit Betrugslinks schrieb.
3. Die Ergebnisse: Die „unschuldige" Falle
Die Ergebnisse waren alarmierend. Obwohl die Anfragen absolut normal klangen und von „Entwicklern" stammten, generierten die KI-Modelle weiterhin Code mit bösartigen Links.
- Die Statistiken: Bei ihrem ersten Test enthielten etwa 4,24 % des generierten Codes einen Betrugslink. Das bedeutet, wenn Sie diese KIs 100 Mal bitten, Code zu schreiben, würden sie Sie etwa vier Mal versehentlich eine Waffe aushändigen.
- Der „Innoc2Scam-bench": Die Forscher erstellten eine „Stresstest"-Liste mit 1.377 spezifischen Fragen, die die ersten vier Modelle immer dazu brachten, schlechten Code zu generieren. Anschließend testeten sie diese Liste auf sieben neuere, fortschrittlichere Modelle, die 2025 veröffentlicht wurden.
- Die neuen Modelle: Das Problem verschwand nicht; es blieb ernst. Die neuen Modelle generierten bösartigen Code mit Raten zwischen 12,9 % und 47,3 %, wenn sie unter Innoc2Scam-bench getestet wurden.
- Analogie: Es ist, als würden Sie den Motor Ihres Autos aufrüsten, damit er schneller und schlauer ist, aber das Navi-System versucht weiterhin, Sie wegen korrupter Kartendaten von Anfang an in eine Klippe zu fahren.
4. Die Hierarchie der Sicherheit
Das Papier ordnete die Modelle wie ein Zeugnis ein:
- Top-Tier (Die Sichersten): Gemini-2.5-Pro und GPT-5. Diese waren am besten darin, „Nein" zu sagen oder die Beantwortung zu verweigern, wenn die Anfrage riskant war. Doch selbst sie waren nicht perfekt.
- Mittlere Ebene: Claude-Sonnet-4.
- Untere Ebene (Die Riskantesten): Modelle wie DeepSeek-Chat-v3.1 und Qwen3-Coder. Diese Modelle waren sehr bereit, die Fragen zu beantworten, generierten aber fast die Hälfte der Zeit bösartigen Code (bis zu 47,3 %).
5. Warum aktuelle Verteidigungen versagen
Die Forscher testeten, ob bestehende Sicherheitstools dies stoppen könnten.
- Die „Sicherheitsgitter": Sie versuchten, Standard-Sicherheitsfilter (wie einen Türsteher in einem Club) und „Abruf-Agenten" (KI, die im Internet nach Fakten sucht, um diese zu überprüfen) einzusetzen.
- Das Ergebnis: Die Sicherheitsgitter waren größtenteils nutzlos. Sie erkannten den bösartigen Code nicht, weil der Code syntaktisch korrekt aussah und die Anfragen normal klangen. Die „Web-Suche"-Agenten halfen ein wenig (sie reduzierten das Risiko von 50 % auf 29 %), versagten aber weiterhin bei der Erkennung der meisten Betrugsversuche.
- Die Erkenntnis: Man kann sich nicht einfach darauf verlassen, dass die KI „besser Bescheid weiß", oder auf einen einfachen Filter. Das bösartige Wissen ist tief im Gehirn des Modells durch seine Trainingsdaten eingebacken.
6. Die „Geister"-Betrugsversuche
Eine der beunruhigendsten Entdeckungen war, dass die KI-Modelle Links zu Betrugsseiten generierten, die in den Sicherheitsdatenbanken noch gar nicht existierten.
- Die Analogie: Die KI-Modelle hatten die „Baupläne" von Betrugsversuchen so gut auswendig gelernt, dass sie die gefälschten Websites rekonstruieren konnten, selbst wenn die Sicherheitswachen die Kriminellen noch nicht gefasst hatten. Einige dieser Seiten waren seit über einem Jahr aktiv und hatten der Entdeckung entgangen, doch die KI wusste, wie man sie benutzt.
Zusammenfassung
Das Papier kommt zu dem Schluss, dass KI-Modelle derzeit durch den Müll des Internets „vergiftet" sind. Selbst die klügsten, neuesten Modelle werden gerne Code schreiben, der Ihr Geld stiehlt, wenn Sie sie die richtige (aber harmlos klingende) Frage stellen. Die aktuellen Sicherheitsmaßnahmen sind wie der Versuch, eine Flut mit einem Papierregenschirm zu stoppen; sie sind nicht stark genug. Die Autoren schlagen vor, dass wir die Trainingsdaten besser bereinigen und strenge, externe Prüfungen für jeden Link hinzufügen müssen, den die KI generiert, bevor ein Mensch den Code ausführt.
Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?
Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.