Evaluating LLMs in the Context of a Functional Programming Course: A Comprehensive Study

Diese Studie bewertet die Leistungsfähigkeit von neun fortschrittlichen Large-Language-Modellen im Kontext eines funktionalen Programmierkurses mit der Low-Resource-Sprache OCaml, indem sie drei neue Benchmarks für Codegenerierung, -korrektur und -erklärung nutzt und feststellt, dass die besten Modelle zwar effektiv sind, aber im Vergleich zu Hochressourcen-Sprachen wie Python oder Java weniger Hausaufgaben lösen können.

Yihan Zhang (McGill University, Canada), Brigitte Pientka (McGill University, Canada), Xujie Si (University of Toronto, USA)

Veröffentlicht Mon, 09 Ma
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache, bildhafte Erklärung der Studie auf Deutsch:

Der große Test: Können KI-Assistenten wirklich Programmieren lernen?

Stellen Sie sich vor, Sie sind ein Student, der gerade lernt, wie man mit OCaml programmiert. OCaml ist eine spezielle Programmiersprache, die sehr logisch und mathematisch ist (man nennt sie "funktional"). Sie ist nicht so bekannt wie Python oder Java, eher wie ein seltenes, altes Handwerk im Vergleich zum modernen Massendruck.

In dieser Studie haben Forscher von der McGill University und der University of Toronto untersucht: Können die neuesten KI-Modelle (die sogenannten "Large Language Models" oder LLMs) einem Studenten bei diesem schwierigen Fach wirklich helfen?

Um das herauszufinden, haben die Forscher drei verschiedene "Prüfungen" (Benchmarks) entwickelt, die wir uns wie drei verschiedene Spiele vorstellen können:

1. Das "Hausaufgaben-Spiel" (λCodeGen)

Die Aufgabe: Die KI soll eine komplette Hausaufgabe lösen, die in normaler Sprache beschrieben ist.
Die Metapher: Stellen Sie sich vor, ein Lehrer gibt der KI die Aufgabe: "Baue mir einen Roboter, der einen Baum klettert und Äpfel pflückt, aber benutze dabei keine Treppen, nur Seile." Die KI muss den Code dafür schreiben.
Das Ergebnis: Die besten KIs (wie GPT-4o oder o3-mini) schaffen das ziemlich gut – etwa in 70 % der Fälle. Aber sie sind nicht perfekt. Bei den schwierigeren Aufgaben (wie "Baue einen Roboter, der durch eine Zeitmaschine reist") machen sie Fehler. Wichtig: Die KIs sind viel schlechter als bei einfachen Sprachen wie Python. Es ist, als würde ein Übersetzer, der fließend Englisch spricht, plötzlich versuchen, ein sehr komplexes Gedicht auf eine seltene Insel-Sprache zu übersetzen. Es klappt oft, aber nicht immer fehlerfrei.

2. Das "Reparatur-Werkstatt-Spiel" (λRepair)

Die Aufgabe: Die KI bekommt einen kaputten Code von einem echten Studenten und die Fehlermeldung des Computers. Sie soll den Fehler finden und reparieren.
Die Metapher: Ein Student baut ein Haus, aber die Welle ist schief und das Dach fällt ein. Die KI ist der Handwerker, der sich das Haus ansieht und sagt: "Ah, hier fehlt ein Nagel, und dort ist der Balken zu kurz."
Das Ergebnis: Hier sind die KIs Superhelden.

  • Bei Syntax-Fehlern (z. B. ein fehlendes Semikolon oder ein falsches Wort) reparieren die Top-KIs fast 80 % der Fehler perfekt. Das ist wie ein Assistent, der sofort sieht, wenn das Türschloss falsch herum eingebaut wurde.
  • Bei Typ-Fehlern (z. B. man versucht, eine Zahl in einen Text zu stecken) sind sie auch sehr gut.
  • Bei logischen Fehlern (der Code läuft, aber er tut das Falsche, z. B. der Roboter pflückt die Äpfel, aber wirft sie weg) wird es schwieriger. Hier liegen die KIs bei ca. 60–70 % Erfolg. Sie verstehen die Logik des Problems nicht immer tiefgründig genug.

3. Das "Theorie-Quiz" (λExplain)

Die Aufgabe: Die KI soll theoretische Konzepte erklären, ohne Code zu schreiben.
Die Metapher: Der Lehrer fragt: "Erkläre mir, warum es wichtig ist, dass ein Roboter nicht in einer Endlosschleife gefangen ist, und gib mir ein Beispiel."
Das Ergebnis: Hier zeigen die KIs ihre Schwächen. Die besten Modelle können das gut erklären, aber viele andere KIs werden zu schwätzig. Sie schreiben lange, verwirrende Texte, die zwar höflich klingen, aber den Kern der Sache verfehlen oder sogar falsche Informationen enthalten. Es ist wie ein Student, der eine Prüfung macht und so viel schreibt, dass der Lehrer den eigentlichen Fehler in der Antwort überliest.

Was bedeutet das für uns?

Die Forscher haben 9 verschiedene KI-Modelle getestet. Hier sind die wichtigsten Erkenntnisse, einfach erklärt:

  • Die "Top-3" sind stark, aber nicht unfehlbar: Die besten Modelle (wie GPT-4o) sind wie sehr kluge Tutoren. Sie können Hausaufgaben lösen und Fehler finden, aber sie bekommen nicht immer eine "1" (Mastery). Oft sind es eher eine "2" oder "3".
  • Kleinere Modelle haben Mühe: Die kostenlosen oder kleineren Modelle (wie Llama 3.1 8B) scheitern oft. Sie produzieren Code, der gar nicht funktioniert, oder sie erfinden Dinge, die es nicht gibt.
  • Der "One-Stop-Shop"-Vorteil: Obwohl spezialisierte Tools für OCaml (wie ein Werkzeugkasten nur für OCaml) manchmal genauer sind, haben die KIs einen riesigen Vorteil: Sie können alles. Sie können Python, OCaml, Java und mehr. Für einen Anfänger ist es bequemer, einen einzigen KI-Assistenten zu haben, der bei allen Sprachen hilft, als für jede Sprache ein anderes Spezialwerkzeug zu kaufen.
  • Vorsicht ist geboten: Die KIs sind wie sehr selbstbewusste Schüler. Sie reden oft sehr gut und klingen sehr schlau, aber sie machen trotzdem Fehler. Wenn ein Student blind auf die KI vertraut, lernt er nichts und macht Fehler, die er nicht erkennt.

Die große Lehre

Die Studie sagt uns: KI ist ein fantastisches Werkzeug, aber kein Ersatz für den Lehrer oder das eigene Denken.

  • Für Studenten: Nutzen Sie die KI, um Erklärungen zu bekommen oder Fehler zu finden, aber überprüfen Sie immer, ob sie richtig liegt. Fragen Sie sich: "Verstehe ich das wirklich, oder hat die KI mir nur eine schöne Lüge erzählt?"
  • Für Lehrer: Die KI wird nicht verschwinden. Lehrer sollten Aufgaben stellen, bei denen es nicht nur um das richtige Ergebnis geht, sondern darum, die KI-Antworten zu kritisieren und zu verbessern.
  • Für die Zukunft: Die Forscher hoffen, dass diese Tests helfen, bessere KIs zu bauen, die nicht nur Code "nachahmen", sondern die Logik der Programmiersprachen wirklich verstehen.

Zusammenfassend: Die KIs sind wie ein sehr talentierter, aber manchmal etwas verwirrter Assistent. Sie können Ihnen den Rücken freihalten, aber Sie müssen immer noch selbst das Steuer in der Hand halten, besonders wenn es um schwierige, seltene Sprachen wie OCaml geht.