TML-Bench: Benchmark for Data Science Agents on Tabular ML Tasks

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen digitalen Koch, der in einer Küche arbeitet, die nur aus Tabellen besteht (wie Excel-Dateien). Seine Aufgabe ist es, aus rohen Zutaten (Daten) ein perfektes Gericht (eine Vorhersage) zu kochen, das bei einem Wettbewerb gewinnt.

Das Papier, das Sie gerade lesen, ist wie ein großer, strenger Kochwettbewerb für diese digitalen Köche. Der Autor, Mykola Pinchuk, hat einen neuen Test namens TML-bench erfunden, um herauszufinden, welche dieser KI-Köche wirklich gut, zuverlässig und schnell sind.

Hier ist die Geschichte des Wettbewerbs in einfachen Worten:

1. Das Problem: Glückstreffer vs. Zuverlässigkeit

Bisher haben viele Tests nur geschaut, ob ein KI-Modell einmal ein gutes Ergebnis liefern kann. Das ist wie wenn ein Koch nur einmal ein perfektes Steak hinbekommt, aber beim zweiten Mal alles verbrennt.
In der echten Welt wollen wir aber nicht auf Glück hoffen. Wir wollen einen Koch, der jedes Mal ein gutes Steak liefert, auch wenn er unter Zeitdruck steht.

2. Der Wettbewerb (TML-bench)

Der Autor hat vier verschiedene "Kochaufgaben" (echte Daten-Wettbewerbe von der Plattform Kaggle) ausgewählt. Die KI-Modelle mussten diese Aufgaben lösen. Aber es gab drei wichtige Regeln, die den Wettbewerb besonders fair und realistisch machten:

Die Zeitlupe (Zeitbudget): Die KIs hatten nur begrenzte Zeit: entweder 4 Minuten (240s), 10 Minuten (600s) oder 20 Minuten (1200s). Es ging also nicht nur darum, ob sie es schaffen, sondern wie schnell sie es schaffen.
Der Blindtest (Private Holdout): Die KIs durften ihre Ergebnisse nicht selbst überprüfen. Am Ende gab es eine "Geheimtaste" mit den richtigen Antworten, die nur der Richter sah. So konnte die KI nicht einfach raten oder die Lösung auswendig lernen.
Die 5-Versuche-Regel: Jeder Koch musste jede Aufgabe fünf Mal hintereinander kochen. Nur wenn er fünfmal erfolgreich war, wurde er im Ranking berücksichtigt. Das zeigt, ob er stabil ist oder nur zufällig Glück hatte.

3. Die Teilnehmer (Die KIs)

Der Autor hat 10 verschiedene Open-Source-KI-Modelle getestet. Man könnte sie sich wie 10 verschiedene Kochschulen vorstellen, die ihre besten Schüler geschickt haben.

4. Die Gewinner und Ergebnisse

Was hat der Wettbewerb ergeben?

Der Gesamtsieger: Das Modell MiniMax-M2.1-TEE war der beste Allrounder. Es hat auf fast allen Aufgaben die besten Ergebnisse erzielt, egal wie viel Zeit es hatte. Es war wie der Koch, der sowohl bei 4 Minuten als auch bei 20 Minuten das beste Gericht serviert.
Zeit ist Geld (aber nicht immer): Wenn man den KIs mehr Zeit gab, wurden sie im Durchschnitt besser. Aber nicht alle profitierten gleich stark. Manche Modelle wurden mit mehr Zeit nur ein bisschen besser, andere sprangen richtig auf.
Stabilität ist alles: Einige Modelle waren sehr unzuverlässig. Einmal lieferten sie ein 5-Sterne-Essen, beim nächsten Mal verbrannten sie die Suppe. Der Wettbewerb hat genau diese Schwankungen aufgedeckt.

5. Warum ist das wichtig?

Bisher haben wir oft nur geschaut, wie "intelligent" eine KI theoretisch ist. Dieser Test zeigt uns, wie praktisch sie ist.

Für Firmen: Wenn Sie eine KI einsetzen wollen, um Ihre Daten zu analysieren, wollen Sie nicht das Modell, das einmal ein Wunder vollbringt. Sie wollen das Modell, das jeden Tag zuverlässig funktioniert.
Für die Forschung: Der Test zeigt, dass wir KIs nicht nur an einem einzigen Tag testen sollten, sondern sie unter verschiedenen Bedingungen (Zeitdruck, wiederholte Versuche) beobachten müssen.

Zusammenfassung in einer Metapher

Stellen Sie sich vor, Sie mieten einen Fahrer für eine wichtige Reise.

Der alte Test: Hatte nur geschaut, ob der Fahrer die Strecke einmal in Rekordzeit geschafft hat.
Der neue Test (TML-bench): Lässt den Fahrer die Strecke fünf Mal fahren, mit unterschiedlichen Zeitlimits und ohne, dass er die Karte sehen darf. Er schaut sich an: Wer kommt immer sicher an? Wer macht bei Stress Fehler? Wer ist der beste Allrounder?

Das Ergebnis dieses neuen Tests ist, dass MiniMax-M2.1-TEE der sicherste und schnellste Fahrer war, während andere Modelle manchmal sehr gut, aber oft auch sehr unzuverlässig waren.

Der Autor stellt alle seine Rezepte, seine Logbücher und die Ergebnisse kostenlos online zur Verfügung, damit jeder diesen Wettbewerb nachmachen und die Ergebnisse überprüfen kann.

TML-Bench: Benchmark for Data Science Agents on Tabular ML Tasks

1. Das Problem: Glückstreffer vs. Zuverlässigkeit

2. Der Wettbewerb (TML-bench)

3. Die Teilnehmer (Die KIs)

4. Die Gewinner und Ergebnisse

5. Warum ist das wichtig?

Zusammenfassung in einer Metapher

1. Problemstellung und Motivation

2. Methodik und Benchmark-Design

3. Hauptbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

TML-Bench: Benchmark for Data Science Agents on Tabular ML Tasks

1. Das Problem: Glückstreffer vs. Zuverlässigkeit

2. Der Wettbewerb (TML-bench)

3. Die Teilnehmer (Die KIs)

4. Die Gewinner und Ergebnisse

5. Warum ist das wichtig?

Zusammenfassung in einer Metapher

1. Problemstellung und Motivation

2. Methodik und Benchmark-Design

3. Hauptbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

AgenticGEO: A Self-Evolving Agentic System for Generative Engine Optimization

ProMAS: Proactive Error Forecasting for Multi-Agent Systems Using Markov Transition Dynamics

Domain-Specialized Tree of Thought through Plug-and-Play Predictors

FactorSmith: Agentic Simulation Generation via Markov Decision Process Decomposition with Planner-Designer-Critic Refinement

Me, Myself, and π\piπ : Evaluating and Explaining LLM Introspection

Me, Myself, and $\pi$ : Evaluating and Explaining LLM Introspection