Let's Verify Math Questions Step by Step

Dit paper introduceert MathQ-Verify, een nieuw vijfstapsproces dat zorgvuldig slecht gestelde wiskundeproblemen filtert door syntactische validatie, formalisering, logicacontrole en volledigheidstests, waardoor de kwaliteit van wiskundedatasets aanzienlijk verbetert en de F1-score tot 25 procentpunten stijgt ten opzichte van bestaande methoden.

Chengyu Shen, Zhen Hao Wong, Runming He, Hao Liang, Meiyi Qiang, Zimo Meng, Zhengyang Zhao, Bohan Zeng, Zhengzhou Zhu, Bin Cui, Wentao Zhang

Gepubliceerd Wed, 11 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

🧠 De "Wiskundige Kwaliteitscontroleur"

Stel je voor dat je een enorme bibliotheek bouwt met duizenden wiskundepuzzels om een slimme computer (een AI) te leren rekenen. Tot nu toe hebben onderzoekers zich vooral gefocust op het oplossen van die puzzels: "Is het antwoord 42 of 17?"

Maar deze nieuwe studie, van onderzoekers van de Peking University, zegt: "Wacht even! Kijk eerst naar de puzzel zelf. Is de vraag wel goed gesteld?"

Soms zijn de vragen die door AI's zelf worden gegenereerd (of door mensen) gewoon raar. Ze kunnen tegenstrijdigheden bevatten, ontbrekende informatie hebben, of gewoon onzin zijn. Als je een computer leert op slechte vragen, leert hij slecht rekenen.

Deze paper introduceert MathQ-Verify, een slimme "kwaliteitscontroleur" die elke wiskundevraag doorloopt voordat deze wordt gebruikt.

🛠️ Hoe werkt deze controleur? (De 5 Stappen)

Stel je voor dat MathQ-Verify een super-veiligheidsinspecteur is die een nieuw gebouw (de wiskundevraag) moet keuren voordat er mensen (de AI) in mogen wonen. Hij doet dit in vijf stappen:

  1. De "Vervuiling" Check (Contaminated Instruction):

    • Vergelijking: Stel je voor dat je een recept voor cake krijgt, maar er staat ook in: "Schrijf dit recept over" of "Het antwoord is al 500 gram suiker."
    • Wat doet de inspecteur? Hij gooit deze "vervuilde" instructies weg. Hij wil alleen de pure vraag zien, zonder dat het antwoord al in de vraag staat of dat er vreemde opdrachten bij staan.
  2. De Taal-Check (Linguistic Error):

    • Vergelijking: Stel je voor dat het recept zegt: "Voeg 3 eieren toe (met een typfout) en bak het in een ovven."
    • Wat doet de inspecteur? Hij kijkt of de taal correct is. Geen spellingfouten, geen grammaticale rareheden en geen gekke tekens. Als de taal te rommelig is, begrijpt de computer de vraag niet.
  3. De "Basisfeiten" Check (Atomic Condition):

    • Vergelijking: Stel je voor dat het recept zegt: "Gebruik een bakje van -5 liter."
    • Wat doet de inspecteur? Hij kijkt naar de losse feiten in de vraag. Is het logisch? Een bakje kan niet negatief groot zijn. Als een vraag zegt "een driehoek met een oppervlakte van -10", gooit hij die vraag eruit. De basisfeiten moeten kloppen volgens de wetten van de wiskunde.
  4. De "Logische Strijd" Check (Cross-condition Conflict):

    • Vergelijking: Stel je voor dat het recept zegt: "De taart moet heet zijn" én "De taart moet ijskoud zijn" (terwijl je hem tegelijkertijd moet bakken).
    • Wat doet de inspecteur? Hij kijkt of de verschillende delen van de vraag met elkaar in strijd zijn. Als vraag A zegt "x is groter dan 10" en vraag B zegt "x is kleiner dan 5", dan is de vraag onoplosbaar. De inspecteur vangt deze tegenstrijdigheden op.
  5. De "Volledigheids" Check (Condition Completeness):

    • Vergelijking: Stel je voor dat het recept zegt: "Bak een cake" maar vergeten is om te zeggen hoeveel suiker erin moet.
    • Wat doet de inspecteur? Hij vraagt zich af: "Hebben we genoeg informatie om dit probleem op te lossen?" Als de vraag te veel mist, is het een slechte vraag. De inspecteur zorgt dat er genoeg puzzelstukjes zijn om het plaatje compleet te maken.

🏆 Waarom is dit belangrijk?

Vroeger dachten we: "Als de AI het antwoord goed heeft, is alles goed."
De auteurs zeggen nu: "Nee, als de vraag gek is, is het antwoord ook gek, zelfs als de AI denkt dat hij slim is."

Ze hebben een nieuwe testset gemaakt genaamd ValiMath. Dit is een verzameling van 2.147 vragen, waarvan sommige goed zijn en sommige expres foutief zijn (met alle soorten fouten die hierboven genoemd zijn). Ze hebben deze vragen handmatig gecontroleerd door echte wiskundeleraars.

📊 Wat zeggen de resultaten?

Toen ze hun "kwaliteitscontroleur" (MathQ-Verify) lieten werken, gebeurde er iets moois:

  • De AI's werden veel beter in het herkennen van slechte vragen.
  • Ze maakten veel minder fouten in het filteren van data.
  • Door meerdere AI-modellen samen te laten werken (als een jury die stemt), konden ze bijna 90% zekerheid krijgen dat een vraag echt goed is.

💡 De Grootste Les

Dit paper is als een keukenchef die de ingrediënten controleert voordat hij gaat koken. Als je slechte ingrediënten (slechte vragen) gebruikt, krijg je nooit een goede maaltijd (een slimme AI), hoe goed je ook kunt koken.

Met MathQ-Verify zorgen onderzoekers ervoor dat de AI's trainen op een schone, logische en complete basis. Dit maakt de toekomstige AI's betrouwbaarder en slimmer, niet alleen in wiskunde, maar in alle gebieden waar logisch denken nodig is.