FormalProofBench: Can Models Write Graduate Level Math Proofs That Are Formally Verified?

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un grupo de estudiantes de matemáticas muy inteligentes (los modelos de IA) y les pides que resuelvan problemas de nivel universitario o de posgrado. Hasta ahora, para evaluarlos, les pedíamos que escribieran la solución en un cuaderno (lenguaje natural) y un profesor humano la leía para ver si tenía sentido.

El problema de este método es que un estudiante puede escribir una respuesta que suena muy convincente y lógica, pero que tiene un error oculto, como un paso que no existe o un caso que olvidó. El profesor humano podría no darse cuenta.

FormalProofBench es como un nuevo examen, pero con una regla estricta: no vale la pena si no está perfecto.

Aquí te explico cómo funciona, usando analogías sencillas:

1. El Examen: "La Prueba de Fuego"

En lugar de un cuaderno, los estudiantes deben escribir sus soluciones en un lenguaje de programación matemática llamado Lean 4.

La analogía: Imagina que Lean 4 es un robot juez muy estricto. Si el estudiante escribe una sola coma mal, o si salta un paso lógico, el robot no solo lo corrige, sino que le dice: "No, esto no es una prueba válida".
La diferencia: En los exámenes normales, si la idea es buena pero la redacción es un poco floja, el profesor te da puntos. En este examen, o el robot acepta tu código (¡Ganaste!) o lo rechaza (¡Perdiste!). No hay "casi".

2. La Herramienta: "El Taller de Reparación"

Los modelos de IA no tienen que escribir la respuesta de un solo golpe. Tienen un "taller" con herramientas:

El Buscador (Loogle): Es como una biblioteca gigante donde pueden buscar definiciones y teoremas que ya existen.
El Probador de Código (Lean Run Code): Es como un simulador de vuelo. Pueden probar una parte de su prueba, ver si el robot se queja de un error, y corregirlo antes de entregarla.
El Turno: Tienen hasta 40 oportunidades (vueltas) para probar, fallar, buscar ayuda y corregir antes de entregar la prueba final.

3. Los Resultados: "Los Atletas de Élite"

Los autores probaron a los modelos de IA más potentes del mundo (como Claude, GPT-5, Gemini, etc.).

El ganador: El modelo Claude Opus 4.5 fue el mejor, pero solo acertó el 33.5% de los problemas.
La realidad: Esto suena bajo, pero es como si en una olimpiada de matemáticas de nivel doctoral, incluso el mejor estudiante solo resolviera 1 de cada 3 problemas correctamente. El resto de los modelos cayeron muy rápido en rendimiento.
El secreto del éxito: Los modelos que ganaron no solo "pensaron" mucho; practicaron mucho. Los que usaron más el "Probador de Código" (ejecutaron más pruebas y vieron más errores) tuvieron más éxito. Los que solo buscaron en la biblioteca sin probar nada, se perdieron.

4. ¿Por qué es importante esto?

Hasta ahora, la IA era muy buena "hablando" de matemáticas, pero a veces alucinaba (inventaba cosas).

La analogía: Es la diferencia entre un abogado que hace un discurso muy bonito en el tribunal y un abogado que realmente presenta las pruebas físicas que un juez puede verificar.
El futuro: Si la IA puede pasar este examen, significa que pronto podrá ayudar a los matemáticos reales a descubrir cosas nuevas, asegurándose de que sus descubrimientos son 100% correctos y no solo "suena bien".

En resumen:
FormalProofBench es un examen de matemáticas de nivel avanzado donde la IA debe escribir código que un robot verifique automáticamente. Aunque los modelos actuales son muy inteligentes, todavía tienen dificultades para ser perfectos en matemáticas complejas. Sin embargo, la prueba nos dice que la clave para mejorar no es solo "pensar más", sino probar y corregir constantemente sus ideas.

FormalProofBench: Can Models Write Graduate Level Math Proofs That Are Formally Verified?

1. El Examen: "La Prueba de Fuego"

2. La Herramienta: "El Taller de Reparación"

3. Los Resultados: "Los Atletas de Élite"

4. ¿Por qué es importante esto?

1. Problema y Motivación

2. Metodología: FormalProofBench

A. Construcción del Benchmark

B. Configuración de Evaluación (Agentic Harness)

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Implicaciones

FormalProofBench: Can Models Write Graduate Level Math Proofs That Are Formally Verified?

1. El Examen: "La Prueba de Fuego"

2. La Herramienta: "El Taller de Reparación"

3. Los Resultados: "Los Atletas de Élite"

4. ¿Por qué es importante esto?

1. Problema y Motivación

2. Metodología: FormalProofBench

A. Construcción del Benchmark

B. Configuración de Evaluación (Agentic Harness)

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Implicaciones

Más como este