A Grammar of Machine Learning Workflows

Dieser Artikel schlägt eine strukturelle Grammatik für Machine-Learning-Workflows vor, die durch sieben Kernel-Primitiven und eine Laufzeit-gesicherte Trennung von Evaluierung und Bewertung zwei der schädlichsten Formen von Datenlecks bei der Modellbewertung verhindert.

Simon Roth

Veröffentlicht 2026-03-12
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Arbeit „A Grammar of Machine Learning Workflows" von Simon Roth, übersetzt in die deutsche Alltagssprache und mit anschaulichen Bildern.

Das große Problem: Der „Geheimtipp", der alles verfälscht

Stell dir vor, du bereitest dich auf eine große Prüfung vor. Du hast einen Lehrer (den Algorithmus), der dir hilft zu lernen. Damit der Lehrer weiß, ob er gut unterrichtet hat, gibt es zwei Arten von Tests:

  1. Übungstests (Validierung): Diese machst du während des Lernens. Du darfst sie so oft machen, wie du willst. Wenn du sie nicht bestehst, lernst du noch mehr und machst sie wieder.
  2. Die echte Prüfung (Test): Diese machst du nur ein einziges Mal am Ende. Das Ergebnis zählt für deine Note.

Das Problem in der aktuellen Welt der Künstlichen Intelligenz (KI) ist, dass viele Forscher und Entwickler die echte Prüfung vorher schon gesehen haben. Sie schauen in die Lösungen, passen ihre Lernstrategie daran an und machen dann die Prüfung. Das Ergebnis sieht toll aus, ist aber gefälscht. In der Fachsprache nennt man das Daten-Leckage (Data Leakage).

Simon Roth sagt: „Wir haben zu viele Checklisten geschrieben, die sagen: 'Vergiss nicht, die Prüfung nicht vorher anzusehen!'. Aber Menschen machen Fehler. Wir brauchen etwas Besseres."

Die Lösung: Eine grammatikalische Regel für KI

Roth schlägt vor, die KI-Entwicklung wie eine Grammatik zu behandeln. Genau wie in einer Sprache es Regeln gibt, die bestimmen, welche Sätze grammatikalisch korrekt sind und welche nicht, soll es Regeln für KI geben, die verhindern, dass man überhaupt einen falschen Satz (einen fehlerhaften Workflow) bilden kann.

Stell dir das wie einen Zug vor:

  • Der Zug fährt nur auf Schienen.
  • Die Schienen sind so gebaut, dass der Zug gar nicht auf falsche Gleise abdriften kann.
  • Wenn du versuchst, den Zug in eine falsche Richtung zu lenken, rastet ein mechanischer Hebel aus und der Zug bleibt stehen.

Die 7 Grundbausteine (Die Verben)

Roth hat die chaotische Welt des KI-Lernens auf 7 einfache, unveränderliche Schritte reduziert. Alles, was man tun darf, muss durch diese 7 Tore laufen:

  1. Teilen (Split): Du nimmst deine Daten und teilt sie in drei Kisten: Lernmaterial, Übungsmaterial und Geheime Prüfung.
  2. Vorbereiten (Prepare): Du machst die Daten sauber (z. B. Zahlen normalisieren). Wichtig: Das machst du erst, nachdem du geteilt hast, und zwar für jede Kiste separat.
  3. Lernen (Fit): Der Lehrer lernt nur aus der Lernmaterial-Kiste.
  4. Vorhersagen (Predict): Der Lehrer versucht, etwas zu erraten.
  5. Üben (Evaluate): Der Lehrer macht Übungstests mit der Übungsmaterial-Kiste. Das darf er oft machen, um sich zu verbessern.
  6. Erklären (Explain): Der Lehrer sagt, warum er etwas entschieden hat (z. B. „Ich habe das gewählt, weil...").
  7. Prüfen (Assess): Das ist der wichtigste Schritt. Der Lehrer macht die echte Prüfung mit der Geheimen Prüfung-Kiste.

Die vier harten Regeln (Die Sicherheitsgurte)

Das Geniale an Raths „Grammatik" ist, dass sie vier harte Regeln hat, die automatisch greifen, sobald du versuchst, etwas Falsches zu tun. Es ist wie ein Video-Game, bei dem du nicht sterben kannst, weil du gegen eine unsichtbare Wand läufst:

  1. Die „Einmal-Prüfung"-Regel: Du darfst die Geheime Prüfung-Kiste nur ein einziges Mal öffnen. Sobald du das Ergebnis (die Note) gesehen hast, wird die Kiste versiegelt. Wenn du versuchst, sie noch einmal zu öffnen, um zu sehen, ob du eine bessere Note bekommst, sagt das System: „Nein! Das ist verboten!" und blockiert dich sofort.
  2. Die „Nach dem Teilen"-Regel: Du darfst die Daten niemals vorher säubern oder analysieren. Du musst erst teilen, dann säubern. Sonst sieht der Lehrer die Antworten der Prüfung schon beim Lernen.
  3. Die „Keine Labels"-Regel: Du darfst nicht in die Geheime Prüfung-Kiste schauen, um zu lernen, was die richtigen Antworten sind.
  4. Die „Typen-Regel": Du kannst keine Übungstests mit der Geheimen Prüfung-Kiste machen. Das System erkennt sofort: „Das ist die falsche Kiste für diesen Schritt!" und lässt es nicht zu.

Warum ist das so wichtig?

Roth hat in einer riesigen Studie (mit über 2.000 Experimenten) bewiesen, dass diese „Lecks" die Ergebnisse massiv verfälschen.

  • Wenn man die echte Prüfung zu oft ansieht (um die beste Version zu finden), steigt die scheinbare Leistung um fast 5 %. Das klingt wenig, ist aber wie der Unterschied zwischen einem guten und einem Weltklasse-Sportler.
  • Ohne diese Grammatik glauben Forscher, ihre KI sei besser, als sie wirklich ist. Mit der Grammatik ist das Ergebnis ehrlich.

Das Fazit: Ein Baukasten, der Fehler verhindert

Statt zu hoffen, dass alle Forscher die Checklisten lesen und sich an die Regeln halten, baut Roth ein System, das Fehler unmöglich macht.

  • Vorher: Ein Forscher schreibt Code, vergisst eine Regel, und die KI liefert eine falsche, aber schöne Note. Niemand merkt es sofort.
  • Nachher (mit der Grammatik): Der Forscher versucht, den falschen Code zu schreiben. Das System sagt: „Stop! Du hast die Prüfungskiste schon geöffnet. Du darfst nicht weitermachen."

Es ist wie ein Kochbuch, das verhindert, dass du rohes Fleisch isst, indem es dir einfach keine Gabel gibt, mit der du es essen kannst. Die Grammatik macht die korrekte Methode zur einzigen Methode, die funktioniert.

Kurz gesagt: Simon Roth hat ein Sicherheitsnetz gebaut, das verhindert, dass KI-Entwickler sich selbst belügen, indem sie die Prüfungsklausur vorab abschreiben. Es ist eine technische Lösung für ein menschliches Problem.