AIRA_2: Overcoming Bottlenecks in AI Research Agents

Karen Hambardzumyan, Nicolas Baldwin, Edan Toledo, Rishi Hazra, Michael Kuchnik, Bassel Al Omari, Thomas Simon Foster, Anton Protopopov, Jean-Christophe Gagnon-Audet, Ishita Mediratta, Kelvin Niu, Michael Shvartsman, Alisia Lupidi, Alexis Audran-Reiss, Parth Pathak, Tatiana Shavrina, Despoina Magka, Hela Momand, Derek Dunfield, Nicola Cancedda, Pontus Stenetorp, Carole-Jean Wu, Jakob Nicolaus Foerster, Yoram Bachrach, Martin Josifoski

Publicado 2026-03-30

📖 5 min de lectura🧠 Análisis profundo

Ver en arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que quieres construir el mejor coche de carreras del mundo, pero en lugar de hacerlo tú mismo, contratas a un equipo de ingenieros muy inteligentes (que son Inteligencias Artificiales) para que lo diseñen, lo prueben y lo mejoren solos.

El problema es que, hasta ahora, estos "ingenieros de IA" tenían tres grandes problemas que les impedían ganar:

Trabajaban muy lento y solos: Solo podían probar un diseño a la vez. Si un motor fallaba, tenían que esperar horas para arreglarlo antes de probar el siguiente. Era como intentar llenar una piscina con una sola cuchara.
Se confundían con las pruebas: A veces, el ingeniero creía que su coche era genial porque pasó una prueba de entrenamiento, pero en la carrera real (la prueba final) se descomponía. Se estaban "engañando" a sí mismos.
Tenían herramientas rígidas: Sus herramientas de trabajo eran como martillos fijos. Si necesitaban un destornillador, no podían cambiar de herramienta; tenían que seguir golpeando con el martillo, incluso si no servía.

El nuevo sistema que presentan en este papel, llamado AIRA2, es como darle a ese equipo de ingenieros un superpoder para solucionar esos tres problemas. Aquí te explico cómo funciona con analogías sencillas:

1. El Equipo de 8 Ingenieros (En lugar de uno solo)

El problema anterior: Imagina que tienes un solo ingeniero trabajando en un garaje. Si tarda 1 hora en probar un motor, solo puede probar 24 motores al día.
La solución de AIRA2: Ahora, AIRA2 tiene 8 ingenieros trabajando al mismo tiempo en 8 garajes diferentes. No esperan a que el compañero termine para empezar. Si uno termina rápido, ya está probando otra cosa.

La analogía: Es la diferencia entre intentar cortar un bosque con un solo hacha (lento y agotador) versus tener 8 leñadores con motosierras trabajando en equipo. Pueden probar miles de ideas en el tiempo que antes les llevaba probar unas pocas.

2. El "Juez Ciego" (Para evitar trampas)

El problema anterior: Antes, los ingenieros veían las respuestas de las pruebas de entrenamiento mientras diseñaban. Esto hacía que "memorizaran" las respuestas en lugar de aprender a conducir bien. Era como estudiar para un examen mirando las respuestas del libro de soluciones; sacaban un 10 en el simulacro, pero suspendían en el examen real.
La solución de AIRA2: Introducen un protocolo llamado "Evaluación Oculta y Consistente". Imagina que hay un juez ciego que tiene las respuestas correctas en un sobre cerrado.

Los ingenieros diseñan el coche y lo envían al juez.
El juez lo prueba en secreto (sin que los ingenieros vean el resultado exacto ni las respuestas).
Solo les dice: "Tu coche va bien" o "Tu coche va mal".
El resultado: Los ingenieros no pueden hacer trampas ni memorizar. Tienen que aprender de verdad a construir un coche que funcione en cualquier situación, no solo en la prueba que están haciendo.

3. El Mecánico "ReAct" (El detective flexible)

El problema anterior: Antes, si el coche fallaba, el ingeniero tenía que seguir un guion fijo: "Si el motor falla, aprieta el tornillo A". Si el problema era que el aceite estaba sucio, el guion no servía y el ingeniero se quedaba atascado.
La solución de AIRA2: Ahora, usan agentes llamados ReAct. Imagina que en lugar de un robot que sigue un manual, tienes a un mecánico detective.

Si el coche falla, el detective no solo aprieta tornillos. Pensa, actúa y observa.
Pensar: "¿Por qué falló? ¿Fue el aceite o el motor?"
Actuar: "Voy a revisar el nivel de aceite".
Observar: "¡Ajá! El aceite estaba sucio".
Corregir: "Voy a cambiar el aceite y volver a probar".
Pueden investigar, leer los manuales, probar cosas pequeñas y corregir sus propios errores sobre la marcha, sin necesidad de que un humano les diga qué hacer paso a paso.

¿Qué lograron con todo esto?

Gracias a estos tres cambios, AIRA2 se convirtió en el mejor "ingeniero de IA" hasta la fecha en una competencia famosa llamada MLE-bench (que es como una olimpiada para que las IAs resuelvan problemas de ciencia de datos).

En 24 horas: Consiguió un resultado tan bueno que superó a todos los sistemas anteriores.
En 72 horas: Siguió mejorando. ¡Y lo más importante! Mientras que los sistemas antiguos empezaban a fallar después de un tiempo (porque se confundían o se quedaban estancados), AIRA2 sigue mejorando cuanto más tiempo y poder de cómputo le das.

En resumen

AIRA2 es como pasar de tener un solo estudiante que estudia de noche con una vela, a tener un equipo de 8 investigadores brillantes, con un laboratorio de última generación, un juez imparcial que no deja trampas, y herramientas inteligentes que les permiten pensar y corregir sus propios errores.

El mensaje final es que, para que la Inteligencia Artificial haga descubrimientos científicos reales (no solo ganar concursos), necesitamos darle más velocidad (paralelismo), más honestidad (evaluación oculta) y más flexibilidad (agentes que piensan). ¡Y con AIRA2, por fin están empezando a hacerlo!

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: AIRA2

1. El Problema: Cuellos de Botella Estructurales en Agentes de Investigación

El artículo identifica que, a pesar de los avances en agentes autónomos, la automatización del proceso científico (específicamente en competiciones de Machine Learning como MLE-bench) se enfrenta a tres limitaciones estructurales que impiden la escalabilidad y el rendimiento a largo plazo:

Cuello de Botella de Rendimiento de Computación (Throughput): La ejecución síncrona en una sola GPU limita drásticamente el número de muestras (experimentos) generados por unidad de tiempo. El proceso de búsqueda se detiene mientras espera la retroalimentación de experimentos costosos, lo que impide una exploración profunda en espacios de diseño vastos.
Brecha de Generalización (Sobreajuste): Existe una divergencia entre las métricas de validación (usadas para guiar la búsqueda) y las del conjunto de prueba (objetivo real). Los agentes tienden a "jugar" con las métricas de validación o sobreajustarse a ellas a medida que se extiende el horizonte de búsqueda, lo que resulta en una degradación del rendimiento con el tiempo.
Limitación de Operadores Estáticos: Los agentes tradicionales utilizan operadores fijos y de un solo turno (prompts estáticos para tareas como debugging o ingeniería de características). Esta rigidez impide el razonamiento iterativo, la depuración interactiva y la adaptación dinámica a la complejidad de las tareas, imponiendo un techo de rendimiento que la sofisticación de la búsqueda no puede superar.

2. Metodología: Arquitectura de AIRA2

Para abordar estos desafíos, los autores presentan AIRA2, un agente de investigación diseñado con tres decisiones arquitectónicas clave:

A. Pool de Trabajadores Asíncronos Multi-GPU (Resolución del Cuello de Botella de Computación):
- Se implementa un sistema de orquestación evolutiva en estado estacionario (steady-state evolution) que desacopla la toma de decisiones de la ejecución.
- Utiliza un pool de trabajadores asíncronos (8 GPUs en los experimentos principales) que ejecutan agentes ReAct en contenedores aislados (Apptainer).
- Esto permite la experimentación masivamente paralela, aumentando el rendimiento de experimentos de forma lineal con los recursos de GPU disponibles, eliminando los tiempos de espera por sincronización.
B. Protocolo de Evaluación Oculta y Consistente (Hidden Consistent Evaluation - HCE) (Resolución de la Brecha de Generalización):
- Se divide el conjunto de datos en tres partes disjuntas: $D_{train}$ (visible para el agente), $D_{search}$ (usada para la optimización pero oculta al agente) y $D_{val}$ (usada solo para la selección final, oculta tanto al agente como al proceso de búsqueda).
- Las evaluaciones se externalizan en contenedores separados; el agente nunca ve las etiquetas ni reporta sus propias métricas, recibiendo solo la puntuación resultante.
- Esto elimina el "gaming" de métricas y estabiliza la señal de búsqueda, permitiendo que el rendimiento mejore continuamente sin degradarse por sobreajuste a ruido de validación.
C. Agentes ReAct con Alcance Dinámico (Resolución de la Limitación de Operadores):
- Se reemplazan los operadores estáticos por agentes ReAct (Reasoning + Acting) que generan trayectorias de múltiples pasos.
- Estos agentes pueden definir dinámicamente sus acciones: realizar análisis exploratorio de datos, ejecutar experimentos de desarrollo pequeños, inspeccionar registros de errores y depurar iterativamente dentro de la misma trayectoria de mutación.
- Esto permite una depuración interactiva y una asignación dinámica de recursos computacionales según la dificultad de la sub-tarea.

3. Contribuciones Clave

Diseño Arquitectónico Integrado: La primera demostración de cómo la combinación de computación paralela asíncrona, evaluación consistente oculta y agentes interactivos supera los límites actuales de los agentes de investigación.
Protocolo HCE: Un nuevo estándar experimental que demuestra que la degradación del rendimiento reportada en trabajos anteriores no se debía a un sobreajuste real a los datos (memorización), sino al ruido en la evaluación y a la inconsistencia de las señales de validación.
Validación de Escalabilidad: Evidencia empírica de que el rendimiento de los agentes de investigación mejora monótonamente con más recursos computacionales (hasta 72 horas y 144 horas de GPU), rompiendo el estancamiento observado en sistemas previos.

4. Resultados Experimentales

Los experimentos se realizaron en MLE-bench-30 (un subconjunto de 30 competiciones de Kaggle) utilizando 8 GPUs NVIDIA H200.

Rendimiento Principal:
- A las 24 horas, AIRA2 alcanzó un Percentil Medio del 71.8%, superando el estado del arte anterior (MARS+ con 69.9%).
- A las 72 horas, el rendimiento mejoró consistentemente hasta un 76.0%, demostrando una capacidad de mejora a largo plazo que los sistemas anteriores no poseían.
Estudios de Ablación (Importancia de cada componente):
- Sin HCE: El rendimiento se estanca o degrada después de 24 horas, confirmando que la evaluación inconsistente causa la caída.
- Sin Agentes ReAct (Operadores estáticos): El rendimiento inicial es menor (5.5 puntos menos a las 3 horas), aunque la brecha se reduce con el tiempo, indicando que los agentes actúan como un multiplicador de eficiencia.
- Sin Evolución (Solo paralelismo "Best-of-K"): El paralelismo sin compartir estado (evolución) satura rápidamente en el mismo techo que un solo GPU, demostrando que la selección evolutiva es necesaria para aprovechar múltiples GPUs.
Eficiencia Computacional: AIRA2 con 8 GPUs logra en 24 horas un rendimiento comparable al de los agentes más fuertes de la lista de clasificación que utilizan 24 horas de GPU (24-GPU-hours), demostrando una eficiencia superior.

5. Significado e Impacto

El trabajo de AIRA2 es significativo porque:

Cambia el Paradigma de Evaluación: Desplaza el enfoque de "ganar competiciones" mediante scripts frágiles hacia la creación de sistemas autónomos capaces de descubrimiento científico abierto.
Resuelve el Problema de la Escalabilidad: Demuestra que los agentes de investigación pueden escalar efectivamente con más hardware y tiempo, siempre que se aborden los cuellos de botella de la infraestructura y la evaluación.
Diagnóstico de Fallos: Aclara que el "sobreajuste" en agentes de investigación a menudo es un artefacto de ruido en la evaluación, no una falla inherente de la capacidad de generalización del modelo.
Hacia la IA para la Ciencia (AI4Science): Proporciona una hoja de ruta técnica para construir agentes que no solo optimizan hiperparámetros, sino que pueden navegar espacios de diseño complejos, depurar errores de código y generar conocimiento nuevo en dominios científicos reales.

En conclusión, AIRA2 representa un avance fundamental al transformar a los agentes de investigación de optimizadores secuenciales limitados en exploradores masivamente paralelos y robustos, capaces de mejorar continuamente a medida que se les proporciona más tiempo y recursos computacionales.

AIRA_2: Overcoming Bottlenecks in AI Research Agents

1. El Equipo de 8 Ingenieros (En lugar de uno solo)

2. El "Juez Ciego" (Para evitar trampas)

3. El Mecánico "ReAct" (El detective flexible)

¿Qué lograron con todo esto?

En resumen

Resumen Técnico: AIRA2

1. El Problema: Cuellos de Botella Estructurales en Agentes de Investigación

2. Metodología: Arquitectura de AIRA2

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

BeSafe-Bench: Unveiling Behavioral Safety Risks of Situated Agents in Functional Environments

AutoB2G: A Large Language Model-Driven Agentic Framework For Automated Building-Grid Co-Simulation

Semi-Automated Knowledge Engineering and Process Mapping for Total Airport Management

GUIDE: Resolving Domain Bias in GUI Agents through Real-Time Web Video Retrieval and Plug-and-Play Annotation

CADSmith: Multi-Agent CAD Generation with Programmatic Geometric Validation