A Grammar of Machine Learning Workflows

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Arbeit „A Grammar of Machine Learning Workflows" von Simon Roth, übersetzt in die deutsche Alltagssprache und mit anschaulichen Bildern.

Das große Problem: Der „Geheimtipp", der alles verfälscht

Stell dir vor, du bereitest dich auf eine große Prüfung vor. Du hast einen Lehrer (den Algorithmus), der dir hilft zu lernen. Damit der Lehrer weiß, ob er gut unterrichtet hat, gibt es zwei Arten von Tests:

Übungstests (Validierung): Diese machst du während des Lernens. Du darfst sie so oft machen, wie du willst. Wenn du sie nicht bestehst, lernst du noch mehr und machst sie wieder.
Die echte Prüfung (Test): Diese machst du nur ein einziges Mal am Ende. Das Ergebnis zählt für deine Note.

Das Problem in der aktuellen Welt der Künstlichen Intelligenz (KI) ist, dass viele Forscher und Entwickler die echte Prüfung vorher schon gesehen haben. Sie schauen in die Lösungen, passen ihre Lernstrategie daran an und machen dann die Prüfung. Das Ergebnis sieht toll aus, ist aber gefälscht. In der Fachsprache nennt man das Daten-Leckage (Data Leakage).

Simon Roth sagt: „Wir haben zu viele Checklisten geschrieben, die sagen: 'Vergiss nicht, die Prüfung nicht vorher anzusehen!'. Aber Menschen machen Fehler. Wir brauchen etwas Besseres."

Die Lösung: Eine grammatikalische Regel für KI

Roth schlägt vor, die KI-Entwicklung wie eine Grammatik zu behandeln. Genau wie in einer Sprache es Regeln gibt, die bestimmen, welche Sätze grammatikalisch korrekt sind und welche nicht, soll es Regeln für KI geben, die verhindern, dass man überhaupt einen falschen Satz (einen fehlerhaften Workflow) bilden kann.

Stell dir das wie einen Zug vor:

Der Zug fährt nur auf Schienen.
Die Schienen sind so gebaut, dass der Zug gar nicht auf falsche Gleise abdriften kann.
Wenn du versuchst, den Zug in eine falsche Richtung zu lenken, rastet ein mechanischer Hebel aus und der Zug bleibt stehen.

Die 7 Grundbausteine (Die Verben)

Roth hat die chaotische Welt des KI-Lernens auf 7 einfache, unveränderliche Schritte reduziert. Alles, was man tun darf, muss durch diese 7 Tore laufen:

Teilen (Split): Du nimmst deine Daten und teilt sie in drei Kisten: Lernmaterial, Übungsmaterial und Geheime Prüfung.
Vorbereiten (Prepare): Du machst die Daten sauber (z. B. Zahlen normalisieren). Wichtig: Das machst du erst, nachdem du geteilt hast, und zwar für jede Kiste separat.
Lernen (Fit): Der Lehrer lernt nur aus der Lernmaterial-Kiste.
Vorhersagen (Predict): Der Lehrer versucht, etwas zu erraten.
Üben (Evaluate): Der Lehrer macht Übungstests mit der Übungsmaterial-Kiste. Das darf er oft machen, um sich zu verbessern.
Erklären (Explain): Der Lehrer sagt, warum er etwas entschieden hat (z. B. „Ich habe das gewählt, weil...").
Prüfen (Assess): Das ist der wichtigste Schritt. Der Lehrer macht die echte Prüfung mit der Geheimen Prüfung-Kiste.

Die vier harten Regeln (Die Sicherheitsgurte)

Das Geniale an Raths „Grammatik" ist, dass sie vier harte Regeln hat, die automatisch greifen, sobald du versuchst, etwas Falsches zu tun. Es ist wie ein Video-Game, bei dem du nicht sterben kannst, weil du gegen eine unsichtbare Wand läufst:

Die „Einmal-Prüfung"-Regel: Du darfst die Geheime Prüfung-Kiste nur ein einziges Mal öffnen. Sobald du das Ergebnis (die Note) gesehen hast, wird die Kiste versiegelt. Wenn du versuchst, sie noch einmal zu öffnen, um zu sehen, ob du eine bessere Note bekommst, sagt das System: „Nein! Das ist verboten!" und blockiert dich sofort.
Die „Nach dem Teilen"-Regel: Du darfst die Daten niemals vorher säubern oder analysieren. Du musst erst teilen, dann säubern. Sonst sieht der Lehrer die Antworten der Prüfung schon beim Lernen.
Die „Keine Labels"-Regel: Du darfst nicht in die Geheime Prüfung-Kiste schauen, um zu lernen, was die richtigen Antworten sind.
Die „Typen-Regel": Du kannst keine Übungstests mit der Geheimen Prüfung-Kiste machen. Das System erkennt sofort: „Das ist die falsche Kiste für diesen Schritt!" und lässt es nicht zu.

Warum ist das so wichtig?

Roth hat in einer riesigen Studie (mit über 2.000 Experimenten) bewiesen, dass diese „Lecks" die Ergebnisse massiv verfälschen.

Wenn man die echte Prüfung zu oft ansieht (um die beste Version zu finden), steigt die scheinbare Leistung um fast 5 %. Das klingt wenig, ist aber wie der Unterschied zwischen einem guten und einem Weltklasse-Sportler.
Ohne diese Grammatik glauben Forscher, ihre KI sei besser, als sie wirklich ist. Mit der Grammatik ist das Ergebnis ehrlich.

Das Fazit: Ein Baukasten, der Fehler verhindert

Statt zu hoffen, dass alle Forscher die Checklisten lesen und sich an die Regeln halten, baut Roth ein System, das Fehler unmöglich macht.

Vorher: Ein Forscher schreibt Code, vergisst eine Regel, und die KI liefert eine falsche, aber schöne Note. Niemand merkt es sofort.
Nachher (mit der Grammatik): Der Forscher versucht, den falschen Code zu schreiben. Das System sagt: „Stop! Du hast die Prüfungskiste schon geöffnet. Du darfst nicht weitermachen."

Es ist wie ein Kochbuch, das verhindert, dass du rohes Fleisch isst, indem es dir einfach keine Gabel gibt, mit der du es essen kannst. Die Grammatik macht die korrekte Methode zur einzigen Methode, die funktioniert.

Kurz gesagt: Simon Roth hat ein Sicherheitsnetz gebaut, das verhindert, dass KI-Entwickler sich selbst belügen, indem sie die Prüfungsklausur vorab abschreiben. Es ist eine technische Lösung für ein menschliches Problem.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „A Grammar of Machine Learning Workflows" von Simon Roth (2026) auf Deutsch:

1. Problemstellung

Das Paper adressiert das weit verbreitete Problem des Datenlecks (Data Leakage) im maschinellen Lernen. Eine Studie von Kapoor und Narayanan (2023) zeigte, dass Datenlecks in 294 veröffentlichten Papern über 17 wissenschaftliche Disziplinen auftraten.

Herkömmliche Reaktion: Die aktuelle Antwort auf dieses Problem besteht in Dokumentation (Checklisten, Linter, Best-Practice-Leitfäden).
Kritik: Dokumentation verhindert Fehler nicht, da sie auf menschliche Disziplin angewiesen ist. Fehler werden oft erst nachträglich erkannt, nicht verhindert.
Spezifische Ziele: Das Paper konzentriert sich auf tabulares überwachtes Lernen (Klassifikation, Regression) und zielt darauf ab, die drei am stärksten schädlichen Klassen von Lecks strukturell zu verhindern:
- Klasse I: Schätzungs-Leck (z. B. Normalisierung vor dem Split).
- Klasse II: Selektions-Leck (z. B. wiederholtes „Peeking" auf Testdaten zur Modellauswahl).
- Klasse III: Memorierungs-Leck (z. B. Training auf Evaluationsdaten).

2. Methodik: Die Grammatik

Roth schlägt eine formale Grammatik vor, die den Lebenszyklus des überwachten Lernens in eine 7-primitive Kernel-Sprache zerlegt, verbunden durch einen getypten gerichteten azyklischen Graphen (DAG).

Die 7 Kernel-Primitiven

Die Grammatik definiert sieben fundamentale Operationen mit strikten Typsignaturen:

split: Teilt ein DataFrame in Partition (Train, Valid, Test).
prepare: Bereitet Daten vor (Normalisierung, Imputation) – innerhalb des Fits pro Fold.
fit: Trainiert ein Model auf Trainingsdaten.
predict: Wendet das Modell auf neue Daten an.
evaluate: Misst Metriken auf Validierungsdaten (wiederholbar).
explain: Erklärt das Modell (Feature Importance).
assess: Misst Leistung auf Testdaten (terminal, nur einmal erlaubt).

Der Typ-DAG und die „Assess-Once"-Constraint

Das Kernstück der Grammatik ist die strikte Trennung zwischen Evaluation (Validierung, wiederholbar) und Assessment (Test, terminal).

Typische Unterscheidung: evaluate gibt Metrics zurück (wiederholbar), assess gibt Evidence zurück.
Evidence-Typ: Evidence ist ein nominaler, von Metrics unterscheidbarer Typ, der keine nachfolgenden Primitiven als Eingabe akzeptiert. Er fließt nur zum Menschen.
Guard-Mechanismus: Ein Laufzeit-Check (model.assessed = false) verhindert, dass assess zweimal auf dasselbe Modell aufgerufen wird. Ein zweiter Aufruf wird sofort abgelehnt, bevor die Berechnung stattfindet.

Die vier harten Constraints (Hard Constraints)

Diese Regeln werden zur Laufzeit (Call-Time) durch Typ-Checks oder Guards erzwungen und lehnen invaliden Code ab:

Assess einmal pro Modell: Verhindert wiederholtes „Peeking" auf Testdaten (Klasse II).
Vorbereitung nach Split, pro Fold: Verhindert globales Preprocessing vor dem Split (Klasse I).
Typsichere Übergänge: Verhindert das Training auf Testdaten oder Evaluierung ohne gefittetes Modell (Klasse II/III).
Kein Label-Zugriff vor Split: Verhindert Feature-Selektion basierend auf Test-Labels (Klasse II).

3. Schlüsselbeiträge

Strukturelle Verhinderung statt Detektion: Im Gegensatz zu Lintern, die Fehler nachträglich finden, verhindert die Grammatik die Ausführung von fehlerhaften Workflows zur Laufzeit.
Implementierung in drei Sprachen: Die Grammatik wurde unabhängig in Python, R und Julia implementiert. Alle drei teilen denselben Typ-DAG und dieselben vier Constraints, was die Spezifikation als sprachunabhängig und robust validiert.
Falsifizierbare Vorhersagen: Die Grammatik generierte drei Vorhersagen, die empirisch getestet wurden:
1. Screen-Inflation: Bestätigt (Auswahl des besten Algorithmus aus K Kandidaten erhöht die Performance künstlich).
2. Stack-Leakage: Widerlegt (Stacking-Methoden sind bei korrekter Out-of-Fold-Implementierung sicher).
3. Seed-Inflation: Bestätigt (Auswahl des besten Seeds aus S Versuchen inflatiert die Performance).
  Das Bestehen dieser Tests unterstreicht die wissenschaftliche Strenge des Ansatzes.

4. Empirische Ergebnisse

Eine Begleitstudie (Roth 2026) mit 2.047 experimentellen Instanzen und 3.759 zusätzlichen Skalierungs-Tests lieferte folgende Erkenntnisse:

Effektstärken:
- Klasse II (Selektion): Inflationsfaktor $d_z = 0.93$ (Roh-AUC-Inflation +0,046 Punkte). Dieser Effekt bleibt auch bei großen Stichproben bestehen (asymptotischer Boden $d_\infty = 0,047$ ).
- Klasse III (Memorierung): Inflationsfaktor $d_z = 0,53–1,11$ , abhängig von der Modellkapazität.
- Klasse I (Schätzung): Vernachlässigbar ( $|d| < 0,1$ ), wird aber aus Prinzipiengründen trotzdem verhindert.
Power-Law-Analyse: Die Effekte von Klasse II und III folgen einem Potenzgesetz, wobei Klasse II einen positiven asymptotischen Boden hat, was die Notwendigkeit einer bedingungslosen Ablehnung dieser Workflows bestätigt.
Cross-Validation: Die Studie zeigte, dass nominale 95%-Konfidenzintervalle bei CV oft nur eine tatsächliche Abdeckung von ~55–70% erreichen, was die Notwendigkeit von strukturellen Garantien unterstreicht.

5. Bedeutung und Fazit

Paradigmenwechsel: Die Grammatik verschiebt die Verantwortung von der menschlichen Erinnerung („Ich muss den Testdatensatz nicht nochmal ansehen") auf die Implementierung („Das System lässt mich nicht nochmal darauf zugreifen").
Vergleich mit bestehenden Frameworks:
- scikit-learn: Bietet Pipelines für Preprocessing (Klasse I), aber keine Schutzmechanismen gegen Test-Lecks (Klasse II/III).
- tidymodels: Erzwingt per-Fold-Preprocessing, fehlt aber die terminale „Assess-Once"-Schranke.
- D3M/AutoML: Fokus auf Typisierung von Komponenten, nicht auf methodologische Gültigkeit.
Limitationen: Die Grammatik verhindert strukturelle Fehler, aber keine semantischen Fehler (z. B. falsche Metrikwahl oder schlechte Algorithmenwahl). Sie gilt derzeit nur für batch-basiertes, überwachtes Lernen auf tabularen Daten.
Zukunft: Die Arbeit legt den Grundstein für eine neue Ära des maschinellen Lernens, in der methodische Korrektheit durch die API-Struktur erzwungen wird. Ein randomisierter Vergleich zwischen Nutzern der Grammatik und herkömmlichen Frameworks wird als nächster Schritt vorgeschlagen, um die Reduktion von Leckagen in der Praxis zu messen.

Zusammenfassend stellt das Paper einen fundamentalen Baustein dar, der durch eine formale Grammatik und strikte Typsysteme die Reproduzierbarkeit und Validität von ML-Studien strukturell absichert, anstatt sich auf nachträgliche Korrekturen zu verlassen.