AIRA_2: Overcoming Bottlenecks in AI Research Agents

El paper presenta AIRA₂, un agente de investigación de IA que supera los cuellos de botella estructurales existentes mediante un pool de trabajadores asíncronos, un protocolo de evaluación oculta consistente y agentes ReAct interactivos, logrando un rendimiento superior en MLE-bench-30 al demostrar que el "sobreajuste" previo se debía a ruido en la evaluación y no a la memorización de datos.

Karen Hambardzumyan, Nicolas Baldwin, Edan Toledo, Rishi Hazra, Michael Kuchnik, Bassel Al Omari, Thomas Simon Foster, Anton Protopopov, Jean-Christophe Gagnon-Audet, Ishita Mediratta, Kelvin Niu, Michael Shvartsman, Alisia Lupidi, Alexis Audran-Reiss, Parth Pathak, Tatiana Shavrina, Despoina Magka, Hela Momand, Derek Dunfield, Nicola Cancedda, Pontus Stenetorp, Carole-Jean Wu, Jakob Nicolaus Foerster, Yoram Bachrach, Martin Josifoski

Publicado 2026-03-30
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que quieres construir el mejor coche de carreras del mundo, pero en lugar de hacerlo tú mismo, contratas a un equipo de ingenieros muy inteligentes (que son Inteligencias Artificiales) para que lo diseñen, lo prueben y lo mejoren solos.

El problema es que, hasta ahora, estos "ingenieros de IA" tenían tres grandes problemas que les impedían ganar:

  1. Trabajaban muy lento y solos: Solo podían probar un diseño a la vez. Si un motor fallaba, tenían que esperar horas para arreglarlo antes de probar el siguiente. Era como intentar llenar una piscina con una sola cuchara.
  2. Se confundían con las pruebas: A veces, el ingeniero creía que su coche era genial porque pasó una prueba de entrenamiento, pero en la carrera real (la prueba final) se descomponía. Se estaban "engañando" a sí mismos.
  3. Tenían herramientas rígidas: Sus herramientas de trabajo eran como martillos fijos. Si necesitaban un destornillador, no podían cambiar de herramienta; tenían que seguir golpeando con el martillo, incluso si no servía.

El nuevo sistema que presentan en este papel, llamado AIRA2, es como darle a ese equipo de ingenieros un superpoder para solucionar esos tres problemas. Aquí te explico cómo funciona con analogías sencillas:

1. El Equipo de 8 Ingenieros (En lugar de uno solo)

El problema anterior: Imagina que tienes un solo ingeniero trabajando en un garaje. Si tarda 1 hora en probar un motor, solo puede probar 24 motores al día.
La solución de AIRA2: Ahora, AIRA2 tiene 8 ingenieros trabajando al mismo tiempo en 8 garajes diferentes. No esperan a que el compañero termine para empezar. Si uno termina rápido, ya está probando otra cosa.

  • La analogía: Es la diferencia entre intentar cortar un bosque con un solo hacha (lento y agotador) versus tener 8 leñadores con motosierras trabajando en equipo. Pueden probar miles de ideas en el tiempo que antes les llevaba probar unas pocas.

2. El "Juez Ciego" (Para evitar trampas)

El problema anterior: Antes, los ingenieros veían las respuestas de las pruebas de entrenamiento mientras diseñaban. Esto hacía que "memorizaran" las respuestas en lugar de aprender a conducir bien. Era como estudiar para un examen mirando las respuestas del libro de soluciones; sacaban un 10 en el simulacro, pero suspendían en el examen real.
La solución de AIRA2: Introducen un protocolo llamado "Evaluación Oculta y Consistente". Imagina que hay un juez ciego que tiene las respuestas correctas en un sobre cerrado.

  • Los ingenieros diseñan el coche y lo envían al juez.
  • El juez lo prueba en secreto (sin que los ingenieros vean el resultado exacto ni las respuestas).
  • Solo les dice: "Tu coche va bien" o "Tu coche va mal".
  • El resultado: Los ingenieros no pueden hacer trampas ni memorizar. Tienen que aprender de verdad a construir un coche que funcione en cualquier situación, no solo en la prueba que están haciendo.

3. El Mecánico "ReAct" (El detective flexible)

El problema anterior: Antes, si el coche fallaba, el ingeniero tenía que seguir un guion fijo: "Si el motor falla, aprieta el tornillo A". Si el problema era que el aceite estaba sucio, el guion no servía y el ingeniero se quedaba atascado.
La solución de AIRA2: Ahora, usan agentes llamados ReAct. Imagina que en lugar de un robot que sigue un manual, tienes a un mecánico detective.

  • Si el coche falla, el detective no solo aprieta tornillos. Pensa, actúa y observa.
  • Pensar: "¿Por qué falló? ¿Fue el aceite o el motor?"
  • Actuar: "Voy a revisar el nivel de aceite".
  • Observar: "¡Ajá! El aceite estaba sucio".
  • Corregir: "Voy a cambiar el aceite y volver a probar".
  • Pueden investigar, leer los manuales, probar cosas pequeñas y corregir sus propios errores sobre la marcha, sin necesidad de que un humano les diga qué hacer paso a paso.

¿Qué lograron con todo esto?

Gracias a estos tres cambios, AIRA2 se convirtió en el mejor "ingeniero de IA" hasta la fecha en una competencia famosa llamada MLE-bench (que es como una olimpiada para que las IAs resuelvan problemas de ciencia de datos).

  • En 24 horas: Consiguió un resultado tan bueno que superó a todos los sistemas anteriores.
  • En 72 horas: Siguió mejorando. ¡Y lo más importante! Mientras que los sistemas antiguos empezaban a fallar después de un tiempo (porque se confundían o se quedaban estancados), AIRA2 sigue mejorando cuanto más tiempo y poder de cómputo le das.

En resumen

AIRA2 es como pasar de tener un solo estudiante que estudia de noche con una vela, a tener un equipo de 8 investigadores brillantes, con un laboratorio de última generación, un juez imparcial que no deja trampas, y herramientas inteligentes que les permiten pensar y corregir sus propios errores.

El mensaje final es que, para que la Inteligencia Artificial haga descubrimientos científicos reales (no solo ganar concursos), necesitamos darle más velocidad (paralelismo), más honestidad (evaluación oculta) y más flexibilidad (agentes que piensan). ¡Y con AIRA2, por fin están empezando a hacerlo!