MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

Dit paper introduceert MMTU, een uitgebreid benchmark met meer dan 28.000 vragen over 25 real-world tabellataken, om de complexiteit van het begrijpen, redeneren en manipuleren van tabellen door geavanceerde AI-modellen te evalueren en aan te tonen dat er nog aanzienlijke ruimte voor verbetering is.

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. Jagadish

Gepubliceerd Tue, 10 Ma
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

MMTU: De Grote Proef voor Tafels in de Digitale Wereld

Stel je voor dat data in de digitale wereld niet als een lange, saaie lijst van cijfers staat, maar als een enorme, complexe keukentafel. Op deze tafel liggen recepten (tabellen), ingrediëntenlijsten en notities. Om hier iets nuttigs van te maken, heb je vaak een kookmeester nodig: een expert die precies weet welk ingrediënt bij welk recept hoort, welke foutjes er in de lijst staan, en hoe je de hele tafel moet herschikken om een nieuw gerecht te maken.

Vroeger waren dit taken alleen voor echte experts (zoals data-analisten). Maar nu hebben we AI-koks (de grote taalmodellen zoals GPT-5) die beloven dat ze dit ook kunnen. De vraag is: kunnen ze het echt, of zijn ze alleen maar goed in het kopiëren van simpele recepten?

Dit paper introduceert MMTU, een gigantische proefkeuken om deze AI-koks op de proef te stellen.

1. Waarom hebben we deze proefkeuken nodig?

Tot nu toe werden AI-modellen getest op simpele taken, zoals:

  • "Vertaal deze vraag naar een database-opdracht" (alsof je alleen maar vraagt: "Haal de melk uit de koelkast").
  • "Beantwoord deze vraag over de tabel" (alsof je vraagt: "Hoeveel melk is er?").

Maar in het echte leven is het veel complexer. Een echte data-expert moet:

  • Een rommelige lijst omzetten in een nette tabel.
  • Foutjes in de cijfers opsporen en corrigeren.
  • Twee verschillende tabellen aan elkaar plakken alsof je twee puzzels samenvoegt.
  • Een compleet nieuw recept (code) schrijven om de tafel te herschikken.

De huidige tests kijken alleen naar de simpele vragen. MMTU is de ultieme uitdaging: een test met 28.000 vragen over 25 verschillende soorten taken. Het is alsof we de AI-koks niet alleen vragen om melk te halen, maar ook om het hele keukenblad te poetsen, de ingrediënten te sorteren, en een nieuw menu te bedenken.

2. Wat is er aan de hand met de AI-koks?

De auteurs hebben de beste AI-modellen ter wereld (zoals GPT-5 en DeepSeek) deze proefkeuken laten doorkruisen. Het resultaat? Ze doen het goed, maar ze zijn nog lang geen meesterkok.

  • De beste modellen haalden ongeveer 69%. Dat klinkt hoog, maar in de wereld van complexe taken betekent het dat ze in 1 op de 3 situaties de verkeerde handeling doen.
  • De "redenerende" modellen (AI's die eerst even nadenken voordat ze antwoorden) deden het beter dan de snelle chat-modellen. Het is alsof een chef die eerst even het recept bestudeert, minder kans maakt om de suiker te vergeten dan een chef die alles uit het hoofd doet.
  • De zwakke plekken:
    • Grote tafels: Als de tabel heel groot is (veel rijen en kolommen), raken de AI's de weg kwijt. Het is alsof ze in een enorm magazijn met duizenden dozen de ene specifieke blikje niet kunnen vinden.
    • De volgorde maakt uit: Als je de rijen of kolommen in een tabel verwisselt (wat voor een mens hetzelfde betekent), raken de AI's in de war. Ze lijken te denken: "Oh, deze rij staat nu ergens anders, dus het is een ander ding!"
    • De code: Het schrijven van de juiste instructies (SQL of Python) om de tabel te veranderen, blijft lastig. Ze maken vaak kleine foutjes die het hele recept onklaar maken.

3. De "Naald in de Hooiberg" (Maar dan in 2D)

Een van de meest interessante tests in dit paper is de "Naald in de Hooiberg in Tafels".
Stel je voor dat je een naald in een hooiberg moet vinden. Normaal gesproken is dit een lange, rechte stapel hooi (een tekst). AI's zijn hier nu heel goed in.

Maar MMTU maakt er een 2D-hooiberg van: een gigantisch raster van hooibergen (een tabel). De naald zit nu op een specifieke plek in een raster van rijen en kolommen.

  • Het probleem: AI's zijn getraind op rechte lijnen (tekst van links naar rechts). Ze vinden het lastig om verticaal te kijken in een tabel. Als je de kolomtelling verandert, raken ze de naald kwijt. Het is alsof ze gewend zijn om een boek te lezen, maar plotseling moeten ze een landkaart navigeren zonder kompas.

4. Wat betekent dit voor de toekomst?

De boodschap van dit paper is helder: We hebben nog een lange weg te gaan.

Deze nieuwe benchmark (MMTU) is als een spiegel voor de AI-wereld. Hij laat zien waar de modellen nog niet klaar zijn voor.

  • Het helpt ontwikkelaars om te zien dat ze niet alleen maar "slimmer" moeten worden, maar ook beter in het begrijpen van structuren (hoe een tafel eruitziet).
  • Het is een uitnodiging om AI's te trainen die niet alleen tekst kunnen verwerken, maar ook echt kunnen "redeneren" over data, net als een menselijke expert.

Kortom: MMTU is de grote, eerlijke test die ons vertelt dat onze AI-assistenten voor tabellen nog steeds in de leer zijn. Ze kunnen simpele vragen beantwoorden, maar als het echt complex wordt, hebben ze nog steeds een menselijke meesterkok nodig om hen bij te staan.