CodeTaste: Can LLMs Generate Human-Level Code Refactorings?

Die Arbeit stellt mit CodeTaste einen Benchmark vor, der zeigt, dass zwar große Sprachmodelle bei detaillierten Anweisungen zuverlässig refaktorisieren können, jedoch oft scheitern, menschliche Entscheidungen für Code-Verbesserungen eigenständig zu erkennen, wobei eine „Vorschlag-dann-Implementierung"-Strategie die Ausrichtung auf menschliche Präferenzen verbessert.

Alex Thillen, Niels Mündler, Veselin Raychev, Martin Vechev

Veröffentlicht 2026-03-05
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Titel: CODETASTE – Können KI-Programmierer wirklich „sauberen" Code schreiben?

Stellen Sie sich vor, Sie haben einen riesigen, chaotischen Schrank voller Kleidung. Ein neuer, sehr intelligenter Roboter (die KI) kommt herein und sortiert die Sachen. Er findet alles, was Sie brauchen, und legt es in den Schrank. Das Problem: Der Roboter ist so schnell, dass er die Kleidung einfach in den Schramm wirft, ohne sie zu falten. Es funktioniert zwar (Sie finden Ihre Hose), aber der Schrank ist jetzt ein riesiges Durcheinander, das schwer zu durchsuchen ist und bald zusammenfällt.

Das ist das aktuelle Problem mit KI-Agenten beim Programmieren: Sie können funktionierenden Code produzieren, aber dieser Code wird oft unübersichtlich, voller Doppelungen und „technischer Schulden".

Was ist CODETASTE?

Die Autoren dieses Papers haben sich gefragt: „Können diese KIs nicht nur funktionieren, sondern auch wie ein erfahrener menschlicher Entwickler den Code refaktorisieren?"

Refaktorisieren ist wie das Aufräumen und Umgestalten des Schranks, ohne die Kleidung zu verändern. Man ordnet sie neu, falte sie schön und macht den Schrank übersichtlicher, damit er in Zukunft leichter zu nutzen ist.

Um das zu testen, haben die Forscher CODETASTE entwickelt. Das ist wie ein riesiger, automatischer Testkeller für KIs.

  1. Die Quelle: Sie haben 100 echte, große Aufräum-Aktionen von menschlichen Entwicklern auf GitHub gesammelt (z. B. eine ganze Bibliothek neu strukturiert).
  2. Der Test: Sie geben der KI eine Aufgabe. Entweder sagen sie ihr genau, was zu tun ist (wie ein detaillierter Putzplan) oder sie sagen nur: „Mach den Schrank ordentlicher" (ein offener Auftrag).
  3. Die Bewertung: Die KI darf den Code ändern. Dann prüfen zwei Dinge:
    • Funktioniert der Schrank noch? (Alle Tests bestehen).
    • Wurde wirklich aufgeräumt? (Spezielle Regeln prüfen, ob alte, schlechte Muster verschwunden und neue, gute Muster entstanden sind).

Was haben sie herausgefunden?

Die Ergebnisse sind wie eine Mischung aus „Toll!" und „Oh nein".

  • Wenn die KI genau weiß, was sie tun soll (Der „Instructed"-Track):
    Hier sind die besten KIs (wie GPT-5) ziemlich gut. Wenn man ihnen sagt: „Nimm alle roten Hemden aus der linken Ecke und lege sie in die rechte", machen sie das zu 70 % richtig. Sie können komplexe Aufgaben ausführen. Aber: Sie sind teuer und brauchen viel Zeit, um das perfekt zu machen.

  • Wenn die KI selbst entscheiden muss (Der „Open"-Track):
    Hier wird es kritisch. Wenn man der KI nur sagt: „Der Schrank ist unordentlich, mach was!", dann scheitern sie fast komplett.

    • Die besten KIs erreichen hier nur eine Erfolgsrate von unter 8 %.
    • Statt den ganzen Schrank neu zu ordnen, machen sie oft nur kleine, oberflächliche Dinge: Sie ändern vielleicht einen Buchstaben im Namen eines Fachs oder fügen ein kleines Etikett hinzu, aber das große Chaos bleibt bestehen.
    • Manchmal machen sie sogar Dinge, die gar nicht nötig waren, oder brechen den Schrank versehentlich.

Die Lösung: Erst planen, dann handeln

Die Forscher haben einen cleveren Trick entdeckt. Wenn man der KI sagt: „Denk erst nach und schreib einen Plan, wie du aufräumen willst, bevor du anfängst", wird sie deutlich besser.

  • Es ist, als würde man dem Roboter sagen: „Mach erst eine Skizze, wie der Schrank aussehen soll, und erst dann greif zu."
  • Durch dieses „Planen" verbessern sich die Ergebnisse der KIs fast verdoppelt. Sie erkennen dann eher die großen Zusammenhänge, die ein Mensch auch sehen würde.

Fazit für den Alltag

Die Botschaft ist klar: KI-Agenten sind heute schon super darin, Anweisungen zu befolgen und Code zu schreiben. Aber sie sind noch keine echten Architekten, die von sich aus wissen, wie man ein Gebäude (oder einen Code) langfristig schön und stabil hält.

Wenn wir wollen, dass KIs uns wirklich helfen, Software zu warten und zu verbessern, müssen wir ihnen helfen, zu planen und zu verstehen, warum etwas geändert werden soll, nicht nur was geändert werden soll. CODETASTE ist der erste Schritt, um KIs so zu trainieren, dass sie nicht nur funktionieren, sondern auch langfristig gute Nachbarn im Code-Schrank sind.