SorryDB: Can AI Provers Complete Real-World Lean Theorems?

Each language version is independently generated for its own context, not a direct translation.

Imagina que el mundo de las matemáticas es como una inmensa biblioteca en construcción. Los matemáticos son los arquitectos que están diseñando los planos de edificios increíbles (teoremas), pero a veces se atascan. En lugar de dejar el edificio a medias, dejan una nota que dice: "Aquí falta poner el ladrillo, lo haré más tarde". En el lenguaje de los ordenadores (específicamente en un programa llamado Lean), esa nota se llama sorry (que significa "lo siento" o "disculpa").

Hasta ahora, para probar si una Inteligencia Artificial (IA) era buena matemática, le dábamos exámenes de olimpiadas: problemas de lógica pura, tipo "resuelve este acertijo". Pero eso es como entrenar a un mecánico solo con rompecabezas de coches de juguete. Cuando llega un coche real, con piezas oxidadas y manuales confusos, el mecánico de juguete falla.

Aquí es donde entra SorryDB.

¿Qué es SorryDB?

SorryDB es como un termómetro en tiempo real de la construcción matemática real. En lugar de usar exámenes antiguos y resueltos, los autores de este paper crearon un sistema que vigila 78 proyectos de matemáticas reales que están activos en internet (en GitHub).

Cada vez que un matemático deja una nota de "lo siento" (sorry) en un proyecto real, SorryDB la captura. Es un banco de datos vivo y cambiante.

La analogía: Imagina que en lugar de entrenar a un robot para que resuelva crucigramas de periódico, le pones a trabajar en una obra de construcción real, donde tiene que arreglar los huecos que dejaron los albañiles humanos. Si el robot puede poner el ladrillo correcto, significa que realmente entiende cómo se construye la casa.

¿Por qué es importante?

Los exámenes antiguos (como los de olimpiadas) están "saturados". Las IAs ya los han memorizado. Es como si un estudiante de matemáticas se hubiera aprendido de memoria las respuestas del examen final; saca un 10, pero no sabe matemáticas.

SorryDB evita esto porque:

Es nuevo: Los problemas son de proyectos que están ocurriendo ahora. Nadie tiene las respuestas guardadas.
Es real: Los problemas tienen "suciedad": dependen de otras partes del código, tienen nombres extraños y requieren entender el contexto, no solo la lógica pura.
Es dinámico: A medida que las IAs se vuelven mejores y resuelven los huecos, los matemáticos dejan huecos más difíciles. El examen se vuelve más difícil automáticamente, como un videojuego que sube de nivel contigo.

¿Qué descubrieron al probar las IAs?

Los autores probaron varias "fuerzas" de IA para ver quién podía rellenar esos huecos (sorry) en los proyectos reales.

Los "Héroes Solitarios" (Modelos Generales): IAs muy potentes como Gemini o Claude.
- Resultado: Son buenas, pero si las dejas trabajar solas una sola vez, a veces fallan. Es como un genio que intenta resolver un problema de una sola vez sin consultar sus notas.
Los "Detectives" (IAs Agentes): IAs que pueden buscar en la biblioteca de matemáticas (llamada Mathlib) y probar varias veces.
- Resultado: Son mucho mejores. La clave no es ser el más inteligente de una sola vez, sino ser persistente. Si fallan, miran el error, buscan una pista nueva y lo intentan de nuevo.
- Analogía: Es la diferencia entre un estudiante que estudia de memoria y uno que, si no sabe una respuesta, busca en el libro, consulta a un compañero y vuelve a intentarlo hasta acertar.
La Sorpresa: Las IAs especializadas (entrenadas solo para matemáticas) no ganaron a las generales. De hecho, a veces fallaron porque estaban "entrenadas para olimpiadas" y no sabían cómo manejar la "suciedad" de un proyecto real.

La lección principal

El paper concluye que ninguna IA es perfecta por sí sola.

Unas son buenas en problemas de lógica pura.
Otras son buenas buscando información en libros.
Otras son buenas corrigiendo sus propios errores.

La verdadera magia ocurre cuando las combinamos. Es como un equipo de fútbol: necesitas un portero, un delantero y un mediocampista. Si usas solo a un delantero, no ganarás el partido.

En resumen

SorryDB nos dice que para que la Inteligencia Artificial ayude realmente a los matemáticos, no debemos entrenarla con acertijos de papel, sino ponerla a trabajar en los proyectos reales donde la gente está construyendo el futuro de las matemáticas. Y lo más importante: la IA no necesita ser un genio infalible, necesita ser un colaborador persistente que sepa pedir ayuda, buscar en la biblioteca y no rendirse ante el primer error.

Es el paso de tener un "robot que sabe resolver exámenes" a tener un "asistente que sabe trabajar en equipo".

SorryDB: Can AI Provers Complete Real-World Lean Theorems?

¿Qué es SorryDB?

¿Por qué es importante?

¿Qué descubrieron al probar las IAs?

La lección principal

En resumen

Resumen Técnico: SORRYDB

1. El Problema

2. Metodología: La Creación de SORRYDB

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Impacto

SorryDB: Can AI Provers Complete Real-World Lean Theorems?

¿Qué es SorryDB?

¿Por qué es importante?

¿Qué descubrieron al probar las IAs?

La lección principal

En resumen

Resumen Técnico: SORRYDB

1. El Problema

2. Metodología: La Creación de SORRYDB

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Impacto

Más como este

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems