LeanTutor: Towards a Verified AI Mathematical Proof Tutor

Dit paper introduceert LeanTutor, een proof-of-concept systeem dat de kracht van Large Language Models en theorem-provers combineert om een AI-gestuurde wiskundige bewijstutor te creëren die fouten minimaliseert en natuurlijke taalfeedback biedt, getest op de nieuwe PeanoBench-dataset.

Manooshree Patel, Rayna Bhattacharyya, Thomas Lu, Arnav Mehta, Niels Voss, Narges Norouzi, Gireeja Ranade

Gepubliceerd 2026-03-05
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat wiskunde leren, en dan vooral het bewijzen van formules, een beetje lijkt op het bestijgen van een steile berg. Je hebt een kaart nodig (de theorie) en een gids die je stap voor stap meeneemt.

In de afgelopen jaren zijn er twee soorten "gidsen" opgedoken, maar beide hebben een groot probleem:

  1. De slimme, maar onbetrouwbare chatbot (LLM): Dit is als een gids die fantastisch kan praten en heel vriendelijk is. Hij kan je in je eigen taal uitleggen wat er aan de hand is. Maar helaas, hij maakt vaak fouten. Soms zegt hij iets dat klinkt als een waarheid, maar is het gewoon een verzinsel (een "hallucinatie"). Of, nog erger: als je hem vraagt hoe je de berg beklimt, zegt hij direct: "Hier is de top!" in plaats van jou te helpen de weg te vinden. Voor een leerling is dat funest; je leert niets als je het antwoord gewoon krijgt.
  2. De strenge, maar onbegrijpelijke computer (Theorema-bewijzer): Dit is een machine die 100% zekerheid biedt. Als hij zegt dat je bewijs klopt, klopt het. Maar om met deze machine te praten, moet je een heel moeilijke, vreemde taal spreken (zoals Latijn voor wiskundigen). Voor een student is dit vaak te moeilijk en te saai om te leren.

LeanTutor: De perfecte combinatie

De auteurs van dit paper hebben een nieuwe oplossing bedacht: LeanTutor. Ze hebben de twee bovenstaande gidsen samengevoegd tot één super-gids.

Hoe werkt dit? Stel je voor dat LeanTutor een tandem is met twee fietsers:

  • De voorste fietser (De Chatbot): Deze fietser praat met de student in gewone, makkelijke taal. Hij hoort wat de student zegt, begrijpt de verwarring en praat terug in een vriendelijke toon. Hij is de "vertaler".
  • De achterste fietser (De Computer): Deze fietser kan niet praten, maar hij is een genie in wiskunde. Hij kijkt naar wat de voorste fietser zegt, vertaalt het naar de strenge wiskundetaal, en checkt of het klopt. Hij is de "controleur".

De drie magische modules

LeanTutor bestaat uit drie onderdelen die samenwerken:

  1. De Vertaler (Autoformalizer): Als een student zegt: "Ik denk dat ik hier moet beginnen met tellen vanaf nul", vertaalt de computer dit direct naar de strenge taal van de machine. Hij kijkt of die stap logisch is.
  2. De Wegwijzer (Next Step Generator): Als de student vastloopt of een fout maakt, vraagt de computer: "Welke stap zou hier logisch op volgen?" Hij probeert 12 verschillende mogelijke stappen uit in zijn hoofd. Als hij een stap vindt die de machine accepteert, zegt hij: "Probeer deze stap eens!"
  3. De Coach (Feedback Generator): Dit is het belangrijkste deel. Als de student een fout maakt, zegt de coach niet: "Het antwoord is X." Nee, hij zegt: "Kijk eens naar je vorige stap. Denk je dat die hier echt past? Wat zou er gebeuren als je dit anders doet?" Hij helpt de student om zelf op het juiste spoor te komen, zonder het antwoord te verklappen.

De proef: PeanoBench

Om te testen of dit werkt, hebben de onderzoekers een speciale testbaan gemaakt genaamd PeanoBench. Dit is een verzameling van 371 wiskundige puzzels (over getallen en optellen). Ze hebben voor elke puzzel een "perfecte" oplossing en ook een "menselijke" versie geschreven. Ze hebben zelfs "verkeerde" oplossingen gemaakt, alsof een student een stap over het hoofd ziet, om te kijken of LeanTutor die fout kan vinden en corrigeren.

Wat hebben ze ontdekt?

  • Het werkt! LeanTutor is veel beter in het vinden van fouten en het geven van nuttige hints dan een gewone chatbot die alleen maar praat.
  • De vertaling is lastig: Het is moeilijk om menselijke taal (vaak vaag en creatief) om te zetten in strenge wiskundetaal (die heel precies moet zijn). Soms denkt de computer dat de student een fout maakt, terwijl de student eigenlijk gewoon anders heeft geformuleerd.
  • De menselijke factor: Het systeem is nog niet perfect, maar het is een enorme stap vooruit. Het combineert het beste van twee werelden: de vriendelijkheid en begrijpelijkheid van een menselijke chatbot, met de onfeilbare nauwkeurigheid van een computer.

Conclusie

LeanTutor is als een slimme fietsles-instructeur. Hij laat je niet direct op de top van de berg staan, maar hij loopt met je mee, corrigeert je houding als je scheef zit, en geeft je tips om zelf de volgende helling te beklimmen. Het doel is niet om de wiskunde voor je te doen, maar om je te leren hoe je het zelf kunt doen, zonder dat je vastloopt in een taal die je niet begrijpt.