TML-Bench: Benchmark for Data Science Agents on Tabular ML Tasks

Dit paper introduceert TML-Bench, een benchmark voor het evalueren van autonome data science-agenten op Kaggle-achtige tabulaire machine learning-taken, waarbij de prestaties van tien open-source LLM's worden gemeten op basis van succespercentages en scores onder verschillende tijdsbeperkingen.

Mykola Pinchuk

Gepubliceerd 2026-03-09
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groep slimme robots hebt die je kunt vragen om een puzzel op te lossen: "Hier is een grote tabel met gegevens, maak er een voorspelling uit." In de wereld van datawetenschap noemen we dit "tabulaire machine learning".

Deze paper, getiteld TML-bench, is eigenlijk een groot, streng examen voor deze robots. De auteur, Mykola Pinchuk, wil niet alleen weten of een robot de puzzel kan oplossen, maar vooral hoe betrouwbaar hij is en hoe snel hij het doet.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Doel: Niet alleen "slim", maar ook "stabiel"

Stel je voor dat je een kok zoekt om een maaltijd te bereiden.

  • De meeste tests kijken alleen of de kok één keer een perfecte maaltijd kan maken (misschien door geluk).
  • TML-bench is anders. Het vraagt de kok om vijf keer op rij te koken, binnen een strikte tijdslimiet. Als de kok drie keer de pan in de fik steekt en twee keer een goed gerecht maakt, is hij voor deze test niet goed genoeg.
  • De paper test 10 verschillende "robots" (AI-modellen) op 4 verschillende data-puzzels. Ze moeten het allemaal doen binnen 4, 10 of 20 minuten.

2. De Regels: Geen Cheaten en Geen Geluk

Om te zorgen dat de test eerlijk is, heeft de auteur een paar strenge regels opgesteld, alsof het een olympische wedstrijd is:

  • De "Blinde" Jury: De robots krijgen hun opdracht, maar ze mogen niet zien wat het juiste antwoord is. Pas nadat ze hun antwoord hebben ingediend, kijkt de jury (de computer) of ze goed zaten. Dit voorkomt dat robots "leren" van het antwoord in plaats van de puzzel op te lossen.
  • Geen Internet: Tijdens het koken mag de robot niet naar buiten kijken op Google. Ze moeten alles weten uit hun eigen hoofd (hun training).
  • Geen "Cheats" uit de toekomst: De robots die getest worden, zijn zo gekozen dat ze de puzzels nog niet kenden voordat ze werden getraind. Het is alsof je een student toetst op een examen dat gisteren pas is gemaakt; als de student het antwoord al wist, is het vals spelen.

3. De Testomgeving: De "Kilo Code" Keuken

Elke robot krijgt een eigen, schone keuken (een werkplek op de computer).

  • Er is een klok die tikt. Als de tijd op is, stopt de robot direct, zelfs als hij nog niet klaar is.
  • De robot moet eerst de ingrediënten (data) lezen, dan proberen te koken (modellen trainen), en dan het gerecht (het resultaat) presenteren.
  • Als de robot te lang doet, wordt de proef als "mislukt" beschouwd, zelfs als het eten er later nog wel uitziet.

4. De Resultaten: Wie is de Winnaar?

Na al die tests (elke robot 5 keer per puzzel, met 3 verschillende tijdslimieten) kwamen ze tot een paar interessante conclusies:

  • De Winnaar: Een robot genaamd MiniMax-M2.1-TEE deed het over het algemeen het beste. Hij was niet alleen slim, maar ook betrouwbaar.
  • Tijd is Geld (en kwaliteit): Over het algemeen werden de robots beter naarmate ze meer tijd kregen. Maar niet allemaal! Sommige robots werden veel beter als ze 20 minuten kregen in plaats van 4, terwijl andere robots ongeveer even goed bleven, ongeacht de tijd.
  • Betrouwbaarheid is cruciaal: Sommige robots maakten soms een perfect gerecht, maar dan weer een brandende pan. De paper laat zien dat een robot die altijd een goed gerecht maakt, waardevoller is dan een robot die soms een sterrenmaaltijd maakt en soms niets.

5. Waarom is dit belangrijk?

Voor bedrijven die AI willen gebruiken, is dit een eye-opener.

  • Het is niet genoeg om te zeggen: "Kijk, deze AI kan een goede voorspelling maken!"
  • Je wilt weten: "Kan deze AI dit elke dag doen, binnen de tijd die ik heb, zonder dat hij vastloopt of fouten maakt?"

Kortom:
TML-bench is een eerlijke, strenge test die laat zien welke AI-robots écht bruikbaar zijn in de echte wereld. Het is niet alleen een wedstrijd om wie het snelst is, maar een wedstrijd om wie het stevigst staat. De winnaar is niet degene die één keer het snelst was, maar degene die elke keer, onder druk, een goed resultaat leverde.