The CompMath-MCQ Dataset: Are LLMs Ready for Higher-Level Math?

Deze paper introduceert CompMath-MCQ, een nieuw benchmarkdataset met 1.500 door professoren geschreven meerkeuzevragen op graduate-niveau voor de evaluatie van LLM's in geavanceerde wiskundige redenering, waaruit blijkt dat dit voor huidige modellen nog een aanzienlijke uitdaging blijft.

Bianca Raimondi, Francesco Pivi, Davide Evangelista, Maurizio Gabbrielli

Gepubliceerd 2026-03-05
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groep superintelligente robots (de zogenaamde "LLMs" of taalmodellen) wilt testen op hun wiskundekennis. Tot nu toe zijn we ze vooral aan het testen met simpele sommen uit de lagere school of met raadselachtige olympiade-vragen. Het is alsof we ze alleen laten spelen met lego-blokjes of met het oplossen van kruiswoordraadsels.

Maar wat als we ze willen testen op het niveau van een echte universiteitsprofessor? Kunnen ze echt diep wiskundig denken, zoals een onderzoeker die werkt aan complexe algoritmen of data-analyse?

Dat is precies wat dit nieuwe onderzoek doet. De auteurs hebben een nieuwe test ontwikkeld, genaamd CompMath-MCQ. Hier is een uitleg in simpele taal, met wat creatieve vergelijkingen:

1. De Nieuwe Test: Een "Masterclass" in Meerkeuze

Stel je voor dat je een examen moet maken voor een geavanceerde masteropleiding. De vragen gaan over onderwerpen als:

  • Lineaire Algebra (het werk met grote tabellen van getallen).
  • Optimalisatie (zoeken naar de beste oplossing, zoals de kortste route of de goedkoopste prijs).
  • Vector Calculus (wiskunde die beweging en verandering in de ruimte beschrijft).
  • Kansrekening (voorspellen van onzekerheid).
  • Python-programmering (het schrijven van code om al deze wiskunde te laten werken).

Het unieke aan deze test:

  • Geen "cheaten": Alle 1.500 vragen zijn nieuw bedacht door echte professoren. Ze zijn nergens anders op internet te vinden. Dit is alsof je een examen maakt dat niemand voorheen heeft gezien, zodat de robots niet kunnen "leren" uit hun geheugen, maar echt moeten denken.
  • Meerkeuze (MCQ): In plaats van dat de robot een heel lang antwoord moet schrijven (wat lastig te controleren is), krijgt hij drie opties. Hij moet er één kiezen. Dit maakt de test eerlijk en makkelijk te vergelijken, alsof je een meerkeuzetoets doet in plaats van een opstel.

2. Hoe weten ze of de vragen goed zijn? (De "Robot-Panel")

Voordat de test echt wordt gebruikt, hebben de auteurs een slimme controle uitgevoerd. Ze hebben de vragen voorgelegd aan acht verschillende robots (zowel dure, gesloten modellen als gratis, open modellen).

  • Het idee: Als alle robots op dezelfde vraag vastlopen of allemaal een ander, foutief antwoord kiezen, is er waarschijnlijk iets mis met de vraag zelf (bijvoorbeeld: de vraag is vaag of het juiste antwoord is verkeerd).
  • De controle: Vragen die deze robots in de war brachten, zijn door mensen (de professoren) handmatig nagekeken. Ze hebben gekeken of de vraag duidelijk was en of het antwoord echt klopte.
  • Vergelijking: Het is alsof je een nieuwe puzzel eerst laat proberen door een groep slimme vrienden. Als ze allemaal vastlopen, weet je dat de puzzel misschien slecht is ontworpen, en niet dat je vrienden dom zijn.

3. Wat zijn de resultaten? (De robots zijn slim, maar niet perfect)

Toen ze de beste robots van vandaag de dag op deze test zetten, zagen ze een interessant plaatje:

  • Sterke punten: De robots zijn verrassend goed in Kansrekening en Python-programmering. Dit is alsof ze uitstekend zijn in het spelen van bordspellen met regels of het schrijven van simpele computerprogramma's. Ze scoren hier vaak boven de 90%.
  • Zwakke punten: Ze hebben grote moeite met Vector Calculus (wiskunde in de ruimte) en sommige delen van Lineaire Algebra.
    • De analogie: Het is alsof de robots heel goed kunnen tellen en patronen herkennen, maar als ze een complexe, driedimensionale beweging moeten berekenen met veel variabelen, raken ze de draad kwijt. Ze maken vaak foutjes in het teken (+ of -) of vergeten een stap in de berekening.
  • De winnaars: De duurste, gesloten modellen (zoals die van OpenAI en Google) deden het het beste, maar zelfs de beste open-source modellen (gratis te gebruiken) komen dicht in de buurt.

4. Waarom is dit belangrijk?

Vroeger dachten we dat robots wiskunde konden doen omdat ze goed waren in simpele sommen. Deze test laat zien dat we nog een lange weg te gaan hebben als we ze echt willen inzetten voor hoogwaardig wetenschappelijk onderzoek.

Het is alsof we een auto hebben die perfect kan rijden op een rechte, lege weg (simpele wiskunde), maar nog niet klaar is om door een drukke, regenachtige stad met complexe afritten te navigeren (geavanceerde, toegepaste wiskunde).

Kortom:
De auteurs hebben een eerlijke, nieuwe test gemaakt om te kijken of robots echt "wiskundig slim" zijn. Het antwoord is: ze zijn op weg, maar voor de allerlastigste, meest creatieve en technische wiskundeproblemen moeten ze nog flink bijleren.