FormalProofBench: Can Models Write Graduate Level Math Proofs That Are Formally Verified?

Il paper presenta FormalProofBench, un benchmark privato che valuta la capacità dei modelli AI di generare prove matematiche di livello universitario avanzato formalmente verificate in Lean 4, rivelando che i modelli più performanti raggiungono una precisione del 33,5%.

Nikil Ravi, Kexing Ying, Vasilii Nesterov, Rayan Krishnan, Elif Uskuplu, Bingyu Xia, Janitha Aswedige, Langston Nashold

Pubblicato 2026-03-31
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

🧠 Il Grande Esame di Matematica per le Intelligenze Artificiali

Immagina di dover insegnare a un robot come risolvere un problema di matematica. Fino a poco tempo fa, gli chiedevamo: "Ehi, qual è la soluzione?" e il robot rispondeva con un testo lungo e convincente. Ma c'era un problema: il robot poteva inventare cose, saltare passaggi logici o usare regole che non esistono, e noi umani (o altri robot) faticavamo a notare l'errore perché il testo sembrava giusto.

Gli autori di questo studio hanno pensato: "Basta con le chiacchiere. Facciamo un esame dove la risposta deve essere verificata da un computer infallibile."

Ecco come funziona il loro nuovo banco di prova, chiamato FormalProofBench.

1. La Sfida: Costruire un Ponte Perfetto 🌉

Immagina che la matematica sia la costruzione di un ponte.

  • I vecchi test (come MATH): Chiedevano al robot di descrivere a parole come costruire il ponte. Se il robot diceva "ho usato cemento forte", anche se in realtà aveva usato sabbia, il test umano poteva accettarlo.
  • FormalProofBench: Qui, il robot non può parlare. Deve scrivere il codice esatto per costruire il ponte usando un linguaggio speciale chiamato Lean 4. Questo linguaggio è come un architetto robotico che non tollera errori: se anche un solo mattone è messo male, il computer dice "NO, il ponte crollerà" e il test fallisce. Non ci sono "quasi giusti". O funziona, o non funziona.

2. Il Laboratorio: Un Robot con un Assistente 🛠️

Per risolvere questi problemi (che sono di livello universitario avanzato, tipo esami per laureati), i ricercatori non hanno lasciato i robot soli. Li hanno messi in una "gabbia" speciale con degli strumenti:

  • Un dizionario magico (Lean Loogle): Per cercare le regole matematiche già esistenti.
  • Un banco di prova (Lean Executor): Per provare a scrivere un pezzo di codice, vedere se funziona e, se c'è un errore, correggerlo subito.

I robot hanno a disposizione 40 tentativi (o "turni") per ogni problema. Possono cercare, provare, sbagliare, correggere e riprovare. È come se avessero 40 ore di laboratorio per risolvere un singolo esercizio.

3. Chi ha passato l'esame? 🏆

I ricercatori hanno messo alla prova i "super-robot" più potenti del mondo (come Claude, GPT-5, Gemini, ecc.).
Il risultato è stato sorprendente e un po' preoccupante:

  • Il robot migliore, Claude Opus 4.5, è riuscito a risolvere correttamente solo il 33,5% dei problemi.
  • Gli altri sono andati peggio, scendendo fino al 3% o 4%.

Cosa significa? Significa che anche i robot più intelligenti del 2026 faticano enormemente a fare matematica "seria" e verificabile. Sono bravissimi a scrivere saggi o a fare calcoli semplici, ma quando devono costruire una prova logica complessa che non ammette errori, si perdono facilmente.

4. Il Segreto del Successo: "Provare e Riprovare" 🔄

L'analisi più interessante riguarda come i robot hanno lavorato.

  • I robot che fallivano: Passavano tutto il tempo a consultare il "dizionario magico" (cercando regole che non esistevano o che non servivano), come uno studente che legge tutto il libro di testo senza mai fare un esercizio.
  • I robot che vincevano: Usavano il "banco di prova". Scrivevano un pezzo di codice, vedevano l'errore, lo correggevano e riprovavano. Più volte provavano a eseguire il codice, più avevano successo.
    • Metafora: È la differenza tra chi studia la teoria della guida in auto e chi sale in auto, prova a sterzare, sbatte contro il muro, impara e riprova.

5. Perché è importante? 🚀

Questo studio ci dice due cose fondamentali:

  1. Siamo ancora lontani: Le Intelligenze Artificiali non sono ancora pronte a sostituire i matematici umani per la ricerca avanzata. C'è ancora un "muro" logico da abbattere.
  2. Il futuro è promettente: Anche se il 33% sembra poco, è un enorme passo avanti rispetto al passato. Se continuiamo a migliorare, presto potremo avere assistenti che non solo scrivono formule, ma le verificano istantaneamente, accelerando la scoperta scientifica.

In sintesi

FormalProofBench è come un esame di guida per le IA, ma invece di guidare un'auto, devono guidare la logica matematica. Finora, solo un pilota su tre è riuscito a parcheggiare senza graffiare l'auto, e quelli che ci sono riusciti sono stati quelli che hanno avuto il coraggio di fare molti tentativi pratici, non solo quelli che hanno letto il manuale.

Sommerso dagli articoli nel tuo campo?

Ricevi digest giornalieri degli articoli più recenti corrispondenti alle tue parole chiave di ricerca — con riassunti tecnici, nella tua lingua.

Prova Digest →