"Should I Give Up Now?" Investigating LLM Pitfalls in Software Engineering

Die Studie zeigt, dass trotz verschiedener Strategien zur Fehlerbehebung die Häufigkeit unbrauchbarer Antworten von LLMs dazu führt, dass ein Großteil der Softwareingenieure die Nutzung von ChatGPT in komplexen Entwicklungsaufgaben aufgibt, was die Notwendigkeit verbesserter Werkzeugunterstützung und Forschung zur Mensch-KI-Interaktion unterstreicht.

Jiessie Tie, Bingsheng Yao, Tianshi Li, Hongbo Fang, Syed Ishtiaque Ahmed, Dakuo Wang, Shurui Zhou

Veröffentlicht Wed, 11 Ma
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie versuchen, ein komplexes Möbelstück aus einem neuen, unbekannten Land zu bauen. Sie haben einen sehr klugen, aber manchmal etwas verwirrten Assistenten zur Hand, der Ihnen sagt, wie es geht. Dieser Assistent ist eine Künstliche Intelligenz (KI), speziell ein großes Sprachmodell wie ChatGPT.

Die Forscherinnen und Forscher aus diesem Papier haben genau das untersucht: Was passiert, wenn Software-Entwickler versuchen, mit so einem KI-Assistenten zu arbeiten, und wann geben sie frustriert auf?

Hier ist die Geschichte der Studie, einfach erklärt:

1. Das Experiment: Der Bauauftrag

Die Forscher haben 26 Personen (ein Mix aus Studenten und erfahrenen Profis) eine Aufgabe gegeben: Sie sollten eine kleine Webseite bauen, die sie vorher noch nie gesehen hatten. Sie durften dabei ChatGPT nutzen, um Hilfe zu bekommen.

Es war wie ein Baukasten-Spiel, bei dem die KI die Anleitung liefert. Aber die Teilnehmer bekamen keine spezielle Schulung, wie man die KI „richtig" bedient (kein „Prompt-Engineering"). Sie sollten es so machen, wie sie es im echten Leben tun würden.

2. Die Probleme: Wenn der Assistent ins Leere redet

Das Ergebnis war ernüchternd. Obwohl die KI oft hilfreich war, gab es viele Momente, in denen sie den Leuten das Wasser trübte. Die Forscher haben neun verschiedene Arten von Fehlern gefunden, die sie in drei große Kategorien einteilen:

  • Der „Halb-herzige" Assistent (Unvollständige Antworten):

    • Die Analogie: Sie sagen dem Assistenten: „Bau mir ein Haus." Er baut die Wände, aber vergisst das Dach und die Tür. Oder er baut das Dach, aber vergisst, dass Sie eine Garage brauchen.
    • In der Studie: Die KI lieferte Code, der wichtige Teile fehlten oder Fehler enthielt. Die Leute mussten dann selbst nachhelfen und die fehlenden Teile erfinden.
  • Der „Redselige" Assistent (Kognitive Überlastung):

    • Die Analogie: Sie fragen: „Wie mache ich das?" und der Assistent schreibt Ihnen einen 50-seitigen Roman darüber, statt Ihnen einfach die drei Schritte zu nennen. Sie müssen durch 40 Seiten Text wühlen, um die eine Zeile zu finden, die Sie brauchen.
    • In der Studie: Die Antworten waren oft so lang und kompliziert, dass die Entwickler verwirrt waren und die wichtigen Informationen nicht mehr fanden.
  • Der „Vergessliche" Assistent (Kontextverlust):

    • Die Analogie: Sie sagen dem Assistenten: „Ich brauche ein rotes Auto." Er baut eines. Dann sagen Sie: „Mach es jetzt blau." Und er baut ein neues rotes Auto, als hätten Sie nichts gesagt. Oder er vergisst, dass Sie ihm vor 10 Minuten gesagt haben, dass Sie keine Reifen wollen.
    • In der Studie: Die KI vergaß oft, was in der vorherigen Nachricht stand. Die Teilnehmer mussten sich ständig wiederholen, was extrem nervig war.

3. Die Reaktion: Wann sagen die Leute „Genug!"?

Das Wichtigste an der Studie ist nicht nur, dass die KI Fehler macht, sondern wann die Menschen aufhören, sie zu nutzen.

  • Die „Gebrauchsanweisung" (Strategien):
    Die Leute versuchten, die KI zu zähmen. Sie sagten: „Nein, mach es anders!", gaben ihr mehr Details oder bauten die Aufgabe in kleine Schritte auf. Das half manchmal.
  • Der Wendepunkt:
    Aber bei 17 von 26 Teilnehmern reichte es einfach nicht. Sie gaben auf. Warum?
    • Wenn die KI unbrauchbare Antworten lieferte, war die Wahrscheinlichkeit, dass jemand aufgab, 11-mal höher.
    • Es war wie bei einem kaputten Werkzeug: Wenn Sie hundertmal versuchen, einen Nagel mit einem Hammer zu schlagen, der sich verbiegt, werfen Sie den Hammer irgendwann weg und nehmen einen Schraubenzieher (oder googeln es selbst).

4. Die überraschenden Erkenntnisse

  • Erfahrung hilft, aber nicht immer: Erfahrene Programmierer gaben schneller auf als Anfänger. Warum? Weil sie wussten, dass die KI bei komplexen Dingen oft nur Zeitverschwendung ist. Anfänger hofften oft noch, dass es klappt, und versuchten es länger.
  • Je mehr man fragt, desto besser (bis zu einem Punkt): Wer viele Fragen stellte (viele „Prompts"), gab seltener auf. Es war wie ein Gespräch: Je mehr man sich mit der KI auseinandersetzte, desto mehr lernte man, wie man sie besser bedient.
  • Neue Modelle sind nicht die Lösung: Die Forscher haben das Experiment sogar mit einer neueren, „klügeren" Version der KI (GPT-5.1) wiederholt. Das Ergebnis? Die gleichen Probleme traten auf. Die KI war vielleicht ein bisschen schneller oder gab am Anfang bessere Antworten, aber sobald es um komplexe, mehrstufige Aufgaben ging, vergaß sie wieder, verstand nicht richtig oder machte Fehler.

5. Das Fazit: Ein Werkzeug, kein Zauberstab

Die Botschaft der Studie ist klar: KI-Assistenten sind wie ein sehr talentierter, aber manchmal unaufmerksamer Praktikant.

  • Sie können tolle Ideen liefern und viel Arbeit abnehmen.
  • Aber sie sind nicht autonom. Man kann sie nicht einfach anweisen, ein ganzes Projekt zu bauen, und dann auf Kaffee gehen.
  • Wenn die KI Fehler macht, muss der Mensch sie korrigieren. Und wenn die Korrektur zu viel Arbeit ist, geben die Menschen auf.

Die große Lektion: Wir sollten KI nicht als Ersatz für menschliches Denken sehen, sondern als Werkzeug, das wir aktiv steuern müssen. Wenn die KI zu oft ins Leere redet oder vergisst, was wir gesagt haben, ist es oft effizienter, die KI zu verlassen und die Arbeit selbst zu erledigen oder andere Quellen zu nutzen.

Kurz gesagt: Die KI ist ein guter Begleiter für den Anfang, aber wenn sie zu oft stolpert, muss der Mensch das Steuer übernehmen.