Proof Strategy Extraction from LLMs for Enhancing Symbolic Provers

Dit paper introduceert Strat2Rocq, een methode die bewijsstrategieën uit grote taalmodellen extraheert en formaliseert als lemmata om het succespercentage van het symbolische bewijsinstrument CoqHammer te verhogen, terwijl deze lemmata ook de prestaties van taalmodel-agenten ten goede komen.

Jian Fang, Yican Sun, Yingfei Xiong

Gepubliceerd 2026-03-05
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat onvoorspelbare kunstenaar hebt (de AI) en een zeer nauwkeurige, maar soms wat stijve architect (de traditionele bewijsmachine).

Deze paper, getiteld "Proof Strategy Extraction from LLMs for Enhancing Symbolic Provers", vertelt het verhaal van hoe we de creativiteit van de kunstenaar kunnen "stelen" om de architect slimmer te maken, zonder dat we de kunstenaar zelf nodig hebben om het werk te doen.

Hier is de uitleg in simpele taal:

1. Het Probleem: De Dure Kunstenaar vs. De Stijve Architect

In de wereld van softwareverificatie (het controleren of computerprogramma's veilig zijn) zijn er twee manieren om te werken:

  • De Kunstenaar (LLM): Grote taalmodellen (zoals de AI die dit antwoord schrijft) zijn fantastisch in het bedenken van slimme oplossingen en patronen. Ze kunnen vaak direct zien waarom iets waar is. Maar ze zijn duur om te gebruiken, ze hebben veel stroom nodig, en als je geheimzinnige code hebt, wil je die niet naar een externe AI sturen (veiligheidsrisico).
  • De Architect (Symbolische Prover): Dit zijn traditionele bewijsmachines (zoals CoqHammer). Ze zijn veilig, werken lokaal op je eigen computer en zijn heel betrouwbaar. Maar ze zijn soms "dom": ze missen de intuïtie. Ze kunnen een probleem niet oplossen omdat ze niet weten dat ze een bepaalde "trui" of "korte weg" moeten nemen, tenzij je het ze stap voor stap uitlegt.

De vraag van de onderzoekers: Kunnen we de "slimme trucs" van de Kunstenaar overnemen en ze in de hersenen van de Architect stoppen, zodat de Architect zelfstandig slimmer wordt?

2. De Oplossing: Strat2Rocq (De Vertaler)

De onderzoekers hebben een systeem bedacht dat ze Strat2Rocq noemen. Het werkt in twee fases, alsof je een geheim receptboek schrijft.

Fase 1: Het Leerproces (Offline)

Stel je voor dat je de Kunstenaar (de AI) vraagt om een moeilijk wiskundig probleem op te lossen.

  1. De Kunstenaar schrijft een verhaal (een natuurlijke taal uitleg) over hoe het probleem opgelost wordt. "Eerst doe ik dit, dan zie ik dat dit hetzelfde is als dat..."
  2. Het systeem leest dit verhaal en denkt: "Ah, deze Kunstenaar gebruikt een slimme truc hier!"
  3. Het systeem vertaalt die slimme truc naar een wiskundige wet (een lemma) die de Architect precies begrijpt.
  4. Dit gebeurt voor duizenden problemen. Het resultaat is een nieuwe wetboek vol met slimme trucs die de Kunstenaar kent, maar die nu in een taal zijn geschreven die de Architect kan lezen.

Analogie: Het is alsof je een meesterkok vraagt om een gerecht te koken. Jij kijkt toe, schrijft de "geheime ingrediënten" en "kooktechnieken" op, en zet ze in een receptenboek. Daarna hoef je de meesterkok niet meer uit te nodigen; je kunt zelf koken met zijn recepten.

Fase 2: Het Toepassen (Online)

Nu moet de Architect (CoqHammer) een nieuw, nog nooit eerder gezien probleem oplossen.

  • Vroeger: De Architect keek in zijn oude, beperkte wetboek en zei: "Ik kan dit niet."
  • Nu: De Architect opent het nieuwe receptenboek (de geëxtraheerde lemmas) dat vol staat met de slimme trucs van de Kunstenaar. Plotseling ziet hij: "Oh, ik ken deze truc! Als ik die toepas, is het probleem opgelost."

3. Wat leverde dit op?

De onderzoekers hebben dit getest op echte, open-source softwareprojecten (zoals een geverifieerde C-compiler).

  • Resultaat: De Architect (CoqHammer) slaagde 13,41% vaker in het oplossen van problemen dan voorheen.
  • Bijkomend voordeel: Zelfs de Kunstenaar (de AI-agent) werd beter als hij toegang had tot dit nieuwe receptenboek. Het bleek dat de trucs van de Kunstenaar ook voor de Kunstenaar zelf nuttig waren!

4. Waarom is dit belangrijk?

Dit is een game-changer voor drie redenen:

  1. Veiligheid: Bedrijven hoeven hun geheime code niet meer naar een externe AI te sturen. Ze kunnen de slimme trucs lokaal gebruiken.
  2. Kosten: Je hoeft geen dure AI-abonnementen te betalen voor elk bewijs. Je gebruikt een goedkope, lokale machine die nu slimmer is.
  3. Begrip: Het helpt ons begrijpen hoe AI's eigenlijk "denken". Door hun trucs in wiskundige wetten te gieten, zien we precies welke patronen ze gebruiken.

Kort samengevat:
De onderzoekers hebben een manier gevonden om de "intuïtie" van een AI te vangen, te verpakken in een formeel wetboek, en die te geven aan een traditionele computer. Hierdoor wordt de computer slimmer, veiliger en goedkoper, zonder dat je de AI zelf hoeft in te zetten. Het is alsof je een genie zijn geheugenboek laat maken, zodat een gewone student (de computer) net zo slim kan presteren.