Using ChatGPT for Data Science Analyses

Diese Arbeit bewertet das Potenzial von ChatGPT als quantitativer Co-Pilot für Datenwissenschafts-Workflows, indem sie dessen Fähigkeiten in den Bereichen Datenexploration, Visualisierung sowie überwachtes und unüberwachtes Modellieren untersucht und dabei sowohl die Stärken als auch die Grenzen des Tools beleuchtet.

Ozan Evkaya, Miguel de Carvalho

Veröffentlicht 2026-03-03
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

🤖 Der neue Co-Pilot für Daten: Ein Testlauf mit ChatGPT

Stellen Sie sich vor, Sie möchten ein riesiges Lagerhaus voller Kisten (Daten) sortieren, analysieren und daraus eine Geschichte erzählen. Früher musste man dafür Jahre studieren, schwere Maschinen bedienen und jede Kiste einzeln öffnen. Heute gibt es einen neuen Helfer: ChatGPT mit dem „Data Analysis"-Plugin.

Dieses Papier von Ozan Evkaya und Miguel de Carvalho ist wie ein Testbericht für einen neuen, sehr intelligenten, aber noch etwas ungestümen Praktikanten. Die Autoren haben ihn in die Praxis geschickt, um zu sehen, ob er wirklich alles kann, was er verspricht.

Hier ist, was sie herausgefunden haben, übersetzt in einfache Bilder:

1. Der Einstieg: Das Lagerhaus betreten 📦

Der Praktikant (ChatGPT) ist extrem schnell darin, Kisten zu öffnen. Wenn Sie ihm eine Excel- oder CSV-Datei (eine Liste mit Zahlen) geben, kann er sofort sagen: „Ah, hier sind Preise, hier sind Laptops, hier sind Häuser."

  • Das Gute: Er ist wie ein Super-Schnellleser. Er kann sofort Diagramme malen, Zusammenfassungen schreiben und Muster erkennen, die ein Mensch erst nach Stunden sehen würde.
  • Das Problem: Er mag keine Kisten, die in einer Sprache verpackt sind, die er nicht kennt (wie spezielle R- oder SAS-Dateien). Da muss der Mensch erst die Verpackung umschreiben.

2. Bilder malen: Der Künstler mit Augenklappen 🎨

Der Praktikant ist sehr talentiert darin, Bilder zu malen (Diagramme).

  • Der Erfolg: Er kann Balkendiagramme und Boxplots erstellen, die sofort zeigen, welche Firmen die meisten Laptops verkaufen.
  • Der Fehler: Manchmal malt er die Achsen falsch. Er sagt zum Beispiel: „Schauen Sie, das ist eine logarithmische Skala!", obwohl es auf dem Bild gar keine ist. Es ist, als würde ein Maler behaupten, er habe einen roten Apfel gemalt, obwohl es auf dem Bild eine Banane ist.
  • Die Lektion: Man darf ihm nicht blind trauen. Man muss immer selbst nachschauen, ob das Bild stimmt.

3. Die Vorhersage: Der Wahrsager mit einem Glaskugel-Problem 🔮

Dann haben sie ihn gebeten, Vorhersagen zu treffen (z. B.: „Wie viel kostet ein Haus basierend auf seiner Größe?").

  • Der Ansatz: Er schlägt sofort die besten Werkzeuge vor: Lineare Regression, Random Forests, neuronale Netze. Er klingt wie ein erfahrener Professor.
  • Die Falle: Er vergisst manchmal die Feinheiten.
    • Bei einem einfachen Modell sagte er nicht, ob die Ergebnisse statistisch signifikant waren.
    • Bei komplexen Modellen (Neuronale Netze) gab er zu, dass er die spezielle Software dafür nicht im „Werkzeugkasten" hat, und schickte den Nutzer stattdessen mit einem Bauplan in die eigene Werkstatt (z. B. Jupyter Notebook).
    • Wichtigster Fehler: Er sagte nicht, dass ein Haus-Preis-Modell theoretisch auch negative Preise vorhersagen könnte (was unsinnig ist), weil er die Daten nicht kritisch genug hinterfragte.

4. Die Gruppenbildung: Der Party-Planer 🎉

Im letzten Teil haben sie ihn gebeten, die Daten in Gruppen zu stecken (Clustering), ohne dass ihm gesagt wurde, wonach er suchen soll.

  • Das Ergebnis: Er versuchte, die Häuser in Gruppen einzuteilen, indem er eine Methode namens „Elbow Method" (Ellenbogen-Methode) nutzte.
  • Die Bewertung: Er erklärte das Prinzip gut, aber das Ergebnis war etwas vage. Der „Ellenbogen" im Diagramm war nicht klar zu sehen. Er riet dann, einfach zu raten oder Fachwissen hinzuzuziehen. Das zeigt: Er ist gut im Vorschlagen, aber schlecht im endgültigen Entscheiden ohne menschlichen Rat.

🏁 Das Fazit: Ein Co-Pilot, kein Autopilot

Die Autoren kommen zu einem klaren Schluss, das man sich wie eine Fahrregel merken kann:

ChatGPT ist ein fantastischer Co-Pilot, aber kein Autopilot.

  • Was er kann: Er ist ein mächtiges Werkzeug, um schnell durch Daten zu stöbern, Ideen zu generieren und Code zu schreiben. Er macht die Datenanalyse für Anfänger viel zugänglicher.
  • Was er nicht kann: Er halluziniert manchmal (erfindet Fakten), ignoriert statistische Feinheiten und versteht nicht immer den Kontext.
  • Die Regel: Ein Mensch muss immer am Steuer sitzen. Man muss seine Vorschläge prüfen, seine Diagramme kontrollieren und seine Schlussfolgerungen hinterfragen. Ohne einen menschlichen Experten, der die Zügel in der Hand hält, kann dieser „Praktikant" Sie in die Irre führen.

Zusammenfassend: Die Zukunft der Datenwissenschaft sieht spannend aus, aber sie wird nicht von Maschinen allein gemacht. Sie wird von Menschen gemacht, die Maschinen als Super-Assistenten nutzen. Wer das versteht, gewinnt; wer blind vertraut, verliert.