Agent Hunt: Bounty Based Collaborative Autoformalization With LLM Agents

El artículo presenta "Agent Hunt", un experimento que utiliza un mercado simulado basado en recompensas donde múltiples agentes de LLM colaboran de forma descentralizada para formalizar y demostrar teoremas de topología algebraica en un entorno de demostración interactiva, proponiendo lemas, compitiendo por recompensas y refinando iterativamente sus pruebas hasta que son verificadas por el asistente de demostración.

Chad E. Brown, Cezary Kaliszyk, Josef Urban

Publicado Tue, 10 Ma
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que quieres construir una catedral gigante (que en este caso es una parte muy compleja de las matemáticas llamada "Topología Algebraica") usando solo bloques de LEGO. El problema es que la catedral es tan enorme que un solo constructor, por muy inteligente que sea, tardaría años en terminarla.

Este paper describe un experimento fascinante donde los investigadores decidieron no contratar a un solo constructor, sino a cuatro robots muy inteligentes (llamados "Agentes" o LLMs) y les dieron una forma muy creativa de trabajar juntos: un mercado de recompensas.

Aquí te explico cómo funciona, paso a paso, con analogías sencillas:

1. El Problema: La Catedral es Demasiado Grande

Antes, los investigadores usaban un solo robot para traducir libros de matemáticas a un lenguaje que las computadoras puedan verificar (esto se llama "autoformalización"). Funcionaba, pero era lento. El proyecto de topología general ya tenía más de 350.000 líneas de código y seguía sin terminar. Era como intentar pintar un mural gigante con un solo pincel.

2. La Solución: El "Mercado de Recompensas" (Agent Hunt)

En lugar de tener un jefe que les diga a los robots exactamente qué hacer (lo cual es difícil porque las matemáticas tienen sorpresas), los investigadores crearon un sistema de recompensas, similar a un juego de video o una feria de artesanías.

  • El Tablero de Bounties: Primero, un humano (o un robot muy cuidadoso) revisó el libro de matemáticas y puso una "etiqueta de precio" (una recompensa) en cada teorema o definición. Algunos eran fáciles y valían poco; otros eran difíciles y valían mucho.
  • Los Agentes (Alice, Bob, Charlie y Dave): Estos cuatro robots inteligentes entraron al sistema. No tenían un jefe que les dijera "haz esto". En su lugar, elegían sus propias misiones.
    • Si un robot veía un teorema difícil, podía decir: "¡Yo me encargo!" y bloquearlo temporalmente (pagando una pequeña parte de la recompensa como fianza).
    • Si lograba probarlo, se llevaba la recompensa completa.
    • Si no podía hacerlo, podía dejarlo abierto para que otro robot lo intentara.

3. ¿Cómo trabajaban juntos? (Cooperación y Competencia)

Imagina una carrera de relevos, pero donde los corredores pueden decidir si corren solos o se pasan el testigo.

  • Competencia: A veces, dos robots querían probar el mismo teorema. El que lo lograba primero ganaba la recompensa. Esto los mantenía motivados y rápidos.
  • Colaboración: A veces, un robot empezaba un trabajo, pero se atascaba. Otro robot podía entrar, arreglarlo y terminar la prueba, ganándose la recompensa. O podían crear "sub-recompensas": un robot decía "Este teorema es muy difícil, voy a dividirlo en tres partes más pequeñas y ofreceré recompensas por cada una".
  • El resultado: En solo dos días y medio, los cuatro robots escribieron 39.000 líneas de código matemático. ¡Es como si hubieran triplicado la velocidad de trabajo en comparación con un solo robot!

4. Los Obstáculos y las Reglas del Juego

No todo fue perfecto. Hubo momentos divertidos y problemas:

  • El "Truco" de los Ejercicios: Al principio, los robots intentaron ganar dinero resolviendo ejercicios de libros de texto que no tenían solución (porque los libros no los incluían). ¡Gastaban horas escribiendo pruebas para cosas que no existían! Los investigadores tuvieron que poner una regla: "Ojo, no intentes ganar dinero en ejercicios sin solución".
  • El Error de la Definición: Hubo un teorema sobre el "Grupo Fundamental" (una forma de medir agujeros en formas geométricas). Los robots se atascaron porque la definición matemática de "seno" y "coseno" que usaban era un poco extraña para la computadora. Era como intentar construir una casa con ladrillos que no encajan bien. Tuvieron que detenerse y corregir las reglas de construcción antes de poder continuar.
  • El Guardián (Megalodon): Para asegurarse de que nadie hicía trampa o rompiendo las reglas, había un "árbitro" automático (un programa llamado Megalodon) que revisaba cada prueba. Si un robot intentaba cobrar una recompensa por una prueba que no estaba bien hecha, el árbitro le decía: "¡No, eso no vale!".

5. ¿Por qué es importante esto?

Este experimento es como si hubieran descubierto que, en lugar de tener un solo genio trabajando 24 horas, es mejor tener un equipo de genios compitiendo y colaborando en un mercado libre.

  • Velocidad: Es mucho más rápido.
  • Flexibilidad: Si un robot se atasca, otro puede tomar el relevo sin esperar a que el primero termine.
  • Escalabilidad: Podrían agregar más robots (más agentes) si el proyecto crece, y el sistema de recompensas se adaptaría automáticamente.

En resumen:
Los investigadores probaron que, si le das a varias inteligencias artificiales un sistema de premios y reglas claras, pueden trabajar juntas de forma desordenada pero eficiente para resolver problemas matemáticos gigantescos, mucho más rápido que si intentas controlarlas a todas desde un centro de mando. ¡Es como transformar un ejército de robots en una banda de jazz donde cada uno improvisa pero todos mantienen el ritmo! 🎷🤖🧮