Code Roulette: How Prompt Variability Affects LLM Code Generation

Die Autoren stellen eine agnostische Evaluierungspipeline vor, um die Sensitivität von Large Language Models gegenüber Prompt-Variationen bei der Code-Generierung zu quantifizieren, und untermauern deren Nutzen durch umfangreiche Experimente.

Andrei Paleyes, Radzim Sendyka, Diana Robinson, Christian Cabrera, Neil D. Lawrence

Veröffentlicht 2026-03-19
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Code Roulette: Warum ein kleiner Tippfehler beim Programmieren mit KI alles verändern kann

Stellen Sie sich vor, Sie haben einen sehr talentierten, aber etwas nervösen Koch (die KI), der Ihnen ein Gericht kochen soll. Sie geben ihm eine Zutatliste (den „Prompt" oder die Eingabeaufforderung).

Die Forscher aus Cambridge haben sich gefragt: Wie empfindlich ist dieser Koch? Wenn Sie ihm das Rezept nur ein klein wenig anders formulieren – vielleicht ein Wort durch ein Synonym ersetzen, einen kleinen Tippfehler machen oder den Satz umstellen – ändert sich dann das Gericht komplett? Oder bleibt es im Grunde dasselbe?

Hier ist die einfache Erklärung ihrer Forschung, „Code Roulette":

1. Das Problem: Jeder spricht anders

Wenn wir Menschen mit einer KI programmieren, schreiben wir nicht alle gleich.

  • Der eine sagt: „Mach eine Liste mit Zahlen."
  • Der andere sagt: „Erstelle eine Sammlung von Ziffern."
  • Der dritte macht einen Tippfehler: „Mach eine Lise mit Zahlen."

Die Forscher wollten herausfinden: Hört die KI auf das, was gemeint ist, oder reagiert sie panisch auf die kleinen Unterschiede in der Formulierung? Wenn die KI bei „Liste" eine Python-Liste baut, aber bei „Sammlung" eine Datenbank erstellt, obwohl Sie dasselbe meinten, ist das ein großes Problem für das Vertrauen in die Technologie.

2. Die Methode: Das „Rezept-Verderben"-Experiment

Die Forscher haben einen cleveren Test entwickelt, den sie wie ein wissenschaftliches Koch-Experiment durchführen:

  • Der Basis-Test: Sie geben der KI ein perfektes Rezept und lassen sie 5-mal kochen. Das ist der „Goldstandard".
  • Das Verderben: Dann nehmen sie das Rezept und fangen an, es absichtlich zu „verderben".
    • Tippfehler: Sie tauschen Buchstaben gegen benachbarte Tasten auf der Tastatur aus (z. B. „a" statt „s"). Das ist wie wenn man im Rezept versehentlich „Salz" statt „Zucker" schreibt.
    • Synonyme: Sie tauschen Wörter aus (z. B. „schnell" statt „rasch"). Das ist wie „Huhn" statt „Geflügel" zu sagen.
    • Umformulierung: Sie lassen die KI das Rezept selbst umschreiben, sodass es anders klingt, aber die gleiche Bedeutung hat.
  • Der Vergleich: Sie lassen die KI mit diesen „verdorbenen" Rezepten kochen und vergleichen die Ergebnisse mit dem Original.

3. Was sie herausfanden: Die KI ist ein Lauscher, kein Philosoph

Die Ergebnisse waren aufschlussreich und ein bisschen beunruhigend:

  • Tippfehler sind tödlich: Wenn man nur ein paar Buchstaben falsch tippt (wie ein echter Mensch, der schnell tippt), wird das Ergebnis der KI oft völlig anders. Die KI scheint sehr empfindlich auf kleine Fehler zu reagieren. Es ist, als würde der Koch bei einem einzigen Buchstabendreher im Rezept das ganze Gericht wegwerfen und etwas völlig Neues backen.
  • Wortwahl ist weniger wichtig: Wenn man nur Synonyme benutzt (z. B. „Haus" statt „Gebäude"), ist die KI viel stabiler. Sie versteht die Absicht besser, auch wenn die Wörter anders sind.
  • Das „alte" vs. „neue" Rezept:
    • Bei Aufgaben, die die KI schon auswendig gelernt hat (wie alte LeetCode-Programmieraufgaben), ist sie sehr robust. Sie erkennt das Rezept sofort, egal wie sehr man es verdreht. Das ist wie ein Koch, der das „Spaghetti Bolognese"-Rezept schon 10.000 Mal gekocht hat.
    • Bei neuen, kreativen Aufgaben, die die KI noch nie gesehen hat, wird sie sehr instabil. Schon eine kleine Änderung im Prompt führt zu völlig unterschiedlichen Ergebnissen. Hier fehlt ihr das „Verständnis" für die Absicht.

4. Warum ist das wichtig?

Stellen Sie sich vor, Sie und Ihr Kollege arbeiten an einem gemeinsamen Projekt. Sie geben der KI fast das gleiche Rezept, aber Sie machen einen kleinen Tippfehler.

  • Ohne dieses Wissen: Sie wundern sich, warum die KI plötzlich eine ganz andere Software gebaut hat als Ihr Kollege. Sie denken, die KI ist unzuverlässig.
  • Mit diesem Wissen: Sie verstehen, dass die KI wie ein sehr wortwörtlicher Übersetzer ist, der auf kleine Nuancen reagiert.

Die Forscher sagen: Wir müssen lernen, wie wir mit diesen KI-Köchen umgehen. Vielleicht müssen wir ihnen genauere Anweisungen geben oder ihre Ergebnisse besser prüfen, bevor wir ihnen blind vertrauen.

Fazit

Die Studie „Code Roulette" zeigt uns, dass KI beim Programmieren nicht so stabil ist wie ein menschlicher Experte. Kleine Änderungen in der Sprache können zu großen Änderungen im Code führen. Das ist wie beim Roulette: Je mehr man das Rad dreht (den Prompt verändert), desto unvorhersehbarer wird das Ergebnis.

Um KI sicherer zu machen, müssen wir verstehen, wie empfindlich sie auf unsere Worte reagiert – und vielleicht lernen, unsere „Rezepte" so zu schreiben, dass auch ein nervöser Koch sie richtig versteht.