Are Large Language Models Robust in Understanding Code Against Semantics-Preserving Mutations?

Dieser Beitrag bewertet die Robustheit modernster Large Language Models beim Verständnis von Code durch die Anwendung semantikerhaltender Mutationen und zeigt, dass diese Modelle trotz hoher Vorhersagegenauigkeit häufig auf fehlerhaftes Schlussfolgern zurückgreifen und bei syntaktischen Variationen erhebliche Instabilität aufweisen.

Ursprüngliche Autoren: Pedro Orvalho, Marta Kwiatkowska

Veröffentlicht 2026-05-08
📖 5 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Pedro Orvalho, Marta Kwiatkowska

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen sehr fortschrittlichen Roboterassistenten, der Computercode lesen und Ihnen sagen kann, was der Code tun wird. Sie fragen ihn: „Wenn ich dieses Programm mit diesen Zahlen ausführe, was wird dann passieren?" Der Roboter gibt Ihnen eine Antwort, und sie ist meist richtig. Doch hier ist die große Frage: Versteht der Roboter den Code tatsächlich, oder ist er nur sehr gut darin, basierend darauf, wie der Code aussieht, zu raten?

Diese Arbeit der University of Oxford stellt genau diese Frage. Die Forscher wollten wissen, ob diese KI-Modelle (Large Language Models, oder LLMs) die Logik der Programmierung wirklich verstehen oder ob sie lediglich Muster auswendig lernen, wie ein Papagei, der Wörter wiederholt, ohne ihre Bedeutung zu kennen.

Der „Zauberkunststück"-Test

Um dies herauszufinden, spielten die Forscher ein Spiel des „Unterschiede-Entdeckens" mit der KI. Sie nahmen ein Stück Code und führten kleine Änderungen vor, die nicht veränderten, was der Code tatsächlich tat, aber wie er aussah, änderten.

Stellen Sie es sich so vor: Stellen Sie sich ein Rezept für einen Kuchen vor.

  • Original: „Mischen Sie Mehl, Zucker und Eier."
  • Die Änderung: „Mischen Sie Zucker, Mehl und Eier." (Die Reihenfolge ist anders, aber der Kuchen ist derselbe.)
  • Eine weitere Änderung: „Vermischen Sie zuerst die trockenen Zutaten, dann fügen Sie die feuchten hinzu." (Die Schritte sind neu angeordnet, aber das Ergebnis ist identisch.)

Wenn ein Koch das Kochen wirklich versteht, sollte er wissen, dass der Kuchen auf die gleiche Weise gelingt, egal wie Sie das Rezept schreiben. Aber wenn er nur die spezifischen Wörter „Mischen Sie Mehl, Zucker und Eier" auswendig gelernt hat, könnte die Änderung der Reihenfolge ihn verwirren.

Die Forscher führten dies mit fünf spezifischen „Zauberkunststücken" am Code durch:

  1. Umbenennen von Variablen: Ändern von my_list zu x7z9. (Wie das Ändern von „Mehl" zu „Pulver" im Rezept).
  2. Spiegeln von Vergleichen: Ändern von if x > 5 zu if 5 < x. (Das Gleiche im Umkehrschluss sagen).
  3. Tauschen der Logik: Wechseln von „Wenn dies, dann tue A" zu „Wenn nicht dies, dann tue B".
  4. Schleifen-Konvertierung: Ändern einer „for-Schleife" (Schritte zählen) in eine „while-Schleife" (weitermachen, bis eine Bedingung erfüllt ist).
  5. Auflösen von Schleifen: Anstatt zu sagen „wiederhole dies 10 Mal", schreibt der Code die Aktion explizit 10 Mal aus.

Was passierte?

Die Ergebnisse waren überraschend und für jeden, der sich auf diese KI-Tools verlässt, ein wenig beunruhigend.

1. Das Problem „Richtige Antwort, falscher Grund"
Selbst wenn die KI die richtige Antwort erhielt, kam sie oft aus den falschen Gründen dazu.

  • Die Analogie: Stellen Sie sich einen Schüler vor, der eine Mathearbeit schreibt. Er erhält die Antwort „5" richtig, aber seine Arbeit zeigt, dass er 2 + 2 addiert hat und dann die letzte Ziffer geraten hat. Er hat den Punkt erhalten, aber er versteht Mathe nicht wirklich.
  • Das Ergebnis: Die Forscher stellten fest, dass in 10 % bis 50 % der Fälle die KI das korrekte Ergebnis auf Basis „fehlerhafter Schlussfolgerungen" lieferte. Sie riet im Wesentlichen oder folgte einem Muster, das zufällig funktionierte, anstatt den Code logisch nachzuvollziehen.

2. Die „zerbrechlichen" Super-Modelle
Die leistungsstärksten und teuersten KI-Modelle (wie GPT-5.2 und Gemini-3) waren am besten darin, bei dem ursprünglichen Code die richtige Antwort zu finden. Sie waren wie die besten Schüler der Klasse.

  • Jedoch: Als die Forscher die „Zauberkunststücke" (die Code-Modifikationen) anwendeten, brachen diese Top-Modelle zusammen. Ihre Leistung sank um bis zu 70 %.
  • Die Analogie: Es ist wie ein Schüler, der einen Test bestehen kann, wenn die Fragen in einer bestimmten Schriftart und Reihenfolge geschrieben sind. Aber wenn Sie die Schriftart ändern oder die Sätze mischen, scheitert er plötzlich, obwohl die Fragen genau gleich sind. Dies zeigt, dass sie die Bedeutung nicht wirklich verstehen; sie reagieren nur auf das Aussehen.

3. Die Empfindlichkeit gegenüber „Variablennamen"
Eine der interessantesten Erkenntnisse war, wie sehr sich die KI um Variablennamen sorgte.

  • Die Analogie: Wenn Sie einem Menschen sagen: „Nimm den roten Ball und leg ihn in die Box", versteht er. Wenn Sie sagen: „Nimm den Zog und leg ihn in die Box", könnte er kurz innehalten, aber er wird es herausfinden.
  • Das Ergebnis: Die KI-Modelle wurden durch das bloße Umbenennen von Variablen (z. B. Änderung von total zu eAJMfVcq) erheblich verwirrt. Obwohl der Code exakt das Gleiche tat, sanken das Vertrauen und die Genauigkeit der KI. Dies deutet darauf hin, dass sie sehr empfindlich auf die spezifischen „Wörter" im Code reagieren, anstatt auf die dahinterliegende Logik.

Das Fazit

Die Arbeit kommt zu dem Schluss, dass diese KI-Modelle zwar unglaublich gut im Mustererkennen sind (das Nachahmen dessen, wie Code aussieht), aber noch nicht robust genug sind, um die Semantik (was Code bedeutet) wirklich zu verstehen.

  • Sie sind zerbrechlich: Kleine, harmlose Änderungen am Code können ihr Verständnis zerstören.
  • Sie raten: Sie gelangen oft durch fehlerhafte Logik zur richtigen Antwort.
  • Sie sind noch nicht reif für den Einsatz im Hauptbetrieb: Sich ohne Überprüfung ihrer Schlussfolgerungen auf sie für kritische Softwareaufgaben zu verlassen, ist riskant, da sie stillschweigend versagen könnten, wenn der Code etwas anders aussieht als das, was sie zuvor gesehen haben.

Die Forscher schlagen vor, um diese Tools wirklich zuverlässig zu machen, sie mit strengeren, formalen Logikprüfungen zu kombinieren – wie ein Sicherheitsnetz, das sicherstellt, dass die KI nicht nur rät, sondern tatsächlich die Regeln des Spiels versteht.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →