Agent Hunt: Bounty Based Collaborative Autoformalization With LLM Agents

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que quieres construir una catedral gigante (que en este caso es una parte muy compleja de las matemáticas llamada "Topología Algebraica") usando solo bloques de LEGO. El problema es que la catedral es tan enorme que un solo constructor, por muy inteligente que sea, tardaría años en terminarla.

Este paper describe un experimento fascinante donde los investigadores decidieron no contratar a un solo constructor, sino a cuatro robots muy inteligentes (llamados "Agentes" o LLMs) y les dieron una forma muy creativa de trabajar juntos: un mercado de recompensas.

Aquí te explico cómo funciona, paso a paso, con analogías sencillas:

1. El Problema: La Catedral es Demasiado Grande

Antes, los investigadores usaban un solo robot para traducir libros de matemáticas a un lenguaje que las computadoras puedan verificar (esto se llama "autoformalización"). Funcionaba, pero era lento. El proyecto de topología general ya tenía más de 350.000 líneas de código y seguía sin terminar. Era como intentar pintar un mural gigante con un solo pincel.

2. La Solución: El "Mercado de Recompensas" (Agent Hunt)

En lugar de tener un jefe que les diga a los robots exactamente qué hacer (lo cual es difícil porque las matemáticas tienen sorpresas), los investigadores crearon un sistema de recompensas, similar a un juego de video o una feria de artesanías.

El Tablero de Bounties: Primero, un humano (o un robot muy cuidadoso) revisó el libro de matemáticas y puso una "etiqueta de precio" (una recompensa) en cada teorema o definición. Algunos eran fáciles y valían poco; otros eran difíciles y valían mucho.
Los Agentes (Alice, Bob, Charlie y Dave): Estos cuatro robots inteligentes entraron al sistema. No tenían un jefe que les dijera "haz esto". En su lugar, elegían sus propias misiones.
- Si un robot veía un teorema difícil, podía decir: "¡Yo me encargo!" y bloquearlo temporalmente (pagando una pequeña parte de la recompensa como fianza).
- Si lograba probarlo, se llevaba la recompensa completa.
- Si no podía hacerlo, podía dejarlo abierto para que otro robot lo intentara.

3. ¿Cómo trabajaban juntos? (Cooperación y Competencia)

Imagina una carrera de relevos, pero donde los corredores pueden decidir si corren solos o se pasan el testigo.

Competencia: A veces, dos robots querían probar el mismo teorema. El que lo lograba primero ganaba la recompensa. Esto los mantenía motivados y rápidos.
Colaboración: A veces, un robot empezaba un trabajo, pero se atascaba. Otro robot podía entrar, arreglarlo y terminar la prueba, ganándose la recompensa. O podían crear "sub-recompensas": un robot decía "Este teorema es muy difícil, voy a dividirlo en tres partes más pequeñas y ofreceré recompensas por cada una".
El resultado: En solo dos días y medio, los cuatro robots escribieron 39.000 líneas de código matemático. ¡Es como si hubieran triplicado la velocidad de trabajo en comparación con un solo robot!

4. Los Obstáculos y las Reglas del Juego

No todo fue perfecto. Hubo momentos divertidos y problemas:

El "Truco" de los Ejercicios: Al principio, los robots intentaron ganar dinero resolviendo ejercicios de libros de texto que no tenían solución (porque los libros no los incluían). ¡Gastaban horas escribiendo pruebas para cosas que no existían! Los investigadores tuvieron que poner una regla: "Ojo, no intentes ganar dinero en ejercicios sin solución".
El Error de la Definición: Hubo un teorema sobre el "Grupo Fundamental" (una forma de medir agujeros en formas geométricas). Los robots se atascaron porque la definición matemática de "seno" y "coseno" que usaban era un poco extraña para la computadora. Era como intentar construir una casa con ladrillos que no encajan bien. Tuvieron que detenerse y corregir las reglas de construcción antes de poder continuar.
El Guardián (Megalodon): Para asegurarse de que nadie hicía trampa o rompiendo las reglas, había un "árbitro" automático (un programa llamado Megalodon) que revisaba cada prueba. Si un robot intentaba cobrar una recompensa por una prueba que no estaba bien hecha, el árbitro le decía: "¡No, eso no vale!".

5. ¿Por qué es importante esto?

Este experimento es como si hubieran descubierto que, en lugar de tener un solo genio trabajando 24 horas, es mejor tener un equipo de genios compitiendo y colaborando en un mercado libre.

Velocidad: Es mucho más rápido.
Flexibilidad: Si un robot se atasca, otro puede tomar el relevo sin esperar a que el primero termine.
Escalabilidad: Podrían agregar más robots (más agentes) si el proyecto crece, y el sistema de recompensas se adaptaría automáticamente.

En resumen:
Los investigadores probaron que, si le das a varias inteligencias artificiales un sistema de premios y reglas claras, pueden trabajar juntas de forma desordenada pero eficiente para resolver problemas matemáticos gigantescos, mucho más rápido que si intentas controlarlas a todas desde un centro de mando. ¡Es como transformar un ejército de robots en una banda de jazz donde cada uno improvisa pero todos mantienen el ritmo! 🎷🤖🧮

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Agent Hunt

1. El Problema

La formalización automática de grandes volúmenes de matemáticas utilizando Modelos de Lenguaje (LLM) ha demostrado ser prometedora, pero enfrenta desafíos significativos de escalabilidad y eficiencia.

Limitaciones del enfoque centralizado: Proyectos previos, como la formalización de la topología general, han demostrado que un solo agente LLM tarda demasiado en completar grandes obras (ej. meses para cientos de miles de líneas), lo que sugiere que el enfoque de un solo agente no es escalable para proyectos masivos.
Complejidad no predecible: La división de trabajo en formalizaciones a gran escala es difícil de planificar centralmente debido a la naturaleza impredecible de las matemáticas (lagunas en pruebas, referencias hacia adelante, dependencias complejas).
Necesidad de colaboración: Se requiere un mecanismo que permita a múltiples agentes LLM colaborar, competir y paralelizar el trabajo de manera dinámica para acelerar el proceso de formalización.

2. Metodología

Los autores proponen un entorno de búsqueda de pruebas descentralizado y basado en recompensas (bounties), inspirado en el proyecto Flyspeck de Thomas Hales, pero adaptado para múltiples agentes LLM.

Entorno y Herramientas:
- Sistema: Se utiliza el verificador de teoría de conjuntos de orden superior Megalodon.
- Objetivo: Formalizar la Parte II del libro Munkres (Topología Algebraica, aprox. 200 páginas), construyendo sobre una base previa de topología general.
- Agentes: Se desplegaron cuatro agentes LLM (Alice, Bob, Charlie y Dave) utilizando modelos ChatGPT Pro Codex y Claude Code.
Mecanismo de Mercado de Recompensas (Bounty System):
- Moneda Simulada: Los agentes operan con un presupuesto total de 45.000 "tokens USD simulados".
- Creación de Bounties: Los agentes pueden proponer nuevos lemas/teoremas y asignarles una recompensa basada en una estimación de dificultad (escala 1-10), longitud de la prueba y costo estimado (a $100/hora).
- Competencia y Colaboración:
  - Los agentes compiten por resolver las pruebas para reclamar las recompensas.
  - Pueden crear sub-recompensas para lemas intermedios.
  - Existe un incentivo para colaborar: si un agente ayuda a otro a terminar una prueba, ambos pueden obtener bonificaciones.
- Mecánica de Bloqueo (Locking): Un agente puede "bloquear" un teorema pagando el 10% de su recompensa, reservando el derecho a la recompensa completa si lo completa. Si otro agente lo prueba, el bloqueante sigue recibiendo la recompensa (incentivando la inversión inicial). Los bloqueos expiran en 24 horas.
Gestión y Seguridad:
- Reglas Estrictas: Los agentes no pueden modificar definiciones existentes ni pruebas de otros agentes sin permiso. Deben seguir ciclos frecuentes de commit-pull-push.
- Scripts de Guardia (Guard Scripts): Se ejecutan scripts locales antes de cada confirmación (commit) para validar invariantes: saldos no negativos, límites de bloqueos (máx. 10 por agente), expiración de bloqueos y consistencia de las recompensas.
- Verificación Final: Todas las pruebas aceptadas son verificadas por el asistente de pruebas subyacente (Megalodon).

3. Contribuciones Clave

Arquitectura Descentralizada: Demostración de un sistema donde múltiples agentes LLM colaboran y compiten dinámicamente sin una planificación central estricta, utilizando mecanismos de mercado para asignar recursos.
Escalabilidad en Formalización: Logro de una velocidad de formalización significativamente mayor que la de un solo agente (ver Resultados).
Adaptación de Megalodon: Modificaciones al sistema de verificación Megalodon para soportar archivos largos generados por LLMs, incluyendo:
- Optimización de búsquedas lineales y comparaciones.
- Restricción del comando Qed para pruebas con dependencias no verificadas (obligando a usar Admitted si las dependencias no están cerradas).
- Mejora de los mensajes de error y nombres de símbolos legibles para los LLMs.
Gestión de Definiciones y Teoremas: Un proceso riguroso para la fase inicial donde un agente crea las definiciones y estimaciones de costo, las cuales son revisadas manualmente para evitar que los agentes "jueguen" con el sistema (gaming).

4. Resultados

Velocidad de Progreso:
- En un periodo de 2 días y 15 horas, los cuatro agentes generaron aproximadamente 121.000 líneas de código formalizado (desde una base de 19k).
- Tasa de producción: ~39.000 líneas/día.
- Comparación: Esto contrasta con el proyecto de topología general de un solo agente, que promedió ~7.000 líneas/día durante 60 días.
Estadísticas de Colaboración:
- Se colocaron un total de 709 recompensas nuevas.
- Resolución: 279 pruebas fueron completadas por el mismo agente que creó la recompensa; 114 fueron completadas por un agente diferente (colaboración cruzada); 312 permanecieron sin resolver al final.
- División del Trabajo: Se observó una división temática natural: Bob se centró en homotopía y grupos fundamentales; Charlie en topología geométrica (círculo, disco); Alice en leyes de grupos y concatenación de caminos; Dave en teoría de grupos abstracta.
Teoremas Mayores:
- Se probaron teoremas complejos como la equivalencia entre grupos cíclicos infinitos y $\mathbb{Z}$ , productos de grupos fundamentales y el Teorema del Punto Fijo de Brouwer (aunque este último dependía de una premisa no probada sobre el grupo fundamental del círculo).
- Se introdujeron 5 nuevas definiciones formales para avanzar en las pruebas.
Costo: El experimento costó aproximadamente 150 USD (suscripciones de LLM), lo que equivale a poco más de 1 USD por cada 1.000 líneas normalizadas.

5. Significado y Observaciones

Eficacia del Modelo de Mercado: El enfoque basado en recompensas demostró ser más flexible y eficiente que la planificación centralizada para manejar la incertidumbre en la formalización matemática. Permitió a los agentes auto-organizarse y priorizar tareas de alto impacto.
Desafíos Identificados:
- Definiciones Incorrectas: Se detectó que las definiciones iniciales de funciones trigonométricas (cos, sin) eran defectuosas (no únicas), lo que impedía probar propiedades fundamentales como la isomorfía del grupo fundamental del círculo con los enteros. Esto resalta la necesidad de validación humana o de agentes especializados en la fase de definición.
- Ejercicios vs. Teoremas: Los ejercicios de los libros de texto (sin pruebas en el texto original) generaron estimaciones de costo engañosas y bajos retornos, lo que llevó a ajustar las reglas para priorizar el material principal.
Futuro: El trabajo valida el potencial de los sistemas multi-agente para escalar la formalización de matemáticas, sugiriendo que la combinación de agentes LLM con mecanismos de incentivos económicos simulados es una vía viable para acelerar la construcción de bibliotecas formales masivas.

En conclusión, Agent Hunt representa un avance significativo en la automatización de la demostración de teoremas, demostrando que la competencia y colaboración guiada por incentivos puede superar las limitaciones de los agentes individuales en tareas de razonamiento matemático complejo.

Agent Hunt: Bounty Based Collaborative Autoformalization With LLM Agents

1. El Problema: La Catedral es Demasiado Grande

2. La Solución: El "Mercado de Recompensas" (Agent Hunt)

3. ¿Cómo trabajaban juntos? (Cooperación y Competencia)

4. Los Obstáculos y las Reglas del Juego

5. ¿Por qué es importante esto?

Resumen Técnico: Agent Hunt

1. El Problema

2. Metodología

3. Contribuciones Clave

4. Resultados

5. Significado y Observaciones

Más como este

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities