EnterpriseBench Corecraft: Training Generalizable Agents on High-Fidelity RL Environments

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que quieres enseñle a un robot a trabajar como un agente de atención al cliente en una tienda de computadoras.

Hasta ahora, la mayoría de los científicos entrenaban a estos robots usando "simulaciones de videojuego": mundos falsos, tareas simples y reglas que no existían en la vida real. Era como enseñar a un piloto a volar solo en un simulador de computadora sin viento, sin turbulencias y sin pasajeros reales. Cuando el piloto salía al mundo real, se confundía.

Este paper (documento de investigación) de Surge AI propone una idea diferente: "Entrenemos a los robots en un entorno realista y complejo".

Aquí te explico cómo lo hicieron y qué descubrieron, usando analogías sencillas:

1. El "Gimnasio" de Entrenamiento: Corecraft

En lugar de un videojuego simple, crearon un entorno llamado Corecraft.

La Analogía: Imagina que en lugar de un gimnasio con pesas de plástico, construyeron un gimnasio olímpico real con obstáculos, viento, y reglas estrictas.
Qué es: Es una simulación completa de una empresa de soporte técnico. Tiene más de 2,500 "personas" (clientes, pedidos, productos), 14 tipos de datos diferentes y 23 herramientas (como bases de datos, sistemas de envío, etc.).
El objetivo: No es solo que el robot "hable", sino que resuelva problemas reales: "El cliente compró una tarjeta gráfica que no cabe en su caja, ¿cómo le explico el problema, busco una caja nueva, calculo el precio y le envío un correo profesional?".

2. El Problema: Los "Champions" de los Exámenes Falsos

Los investigadores probaron a los modelos de IA más inteligentes del mundo (como Claude Opus, GPT-5, Gemini) en este entorno realista.

El Resultado: ¡Fue un desastre! Los mejores modelos fallaron más del 70% de las veces.
Por qué fallaron:
- Búsqueda torpe: En lugar de buscar el pedido específico del cliente, buscaban "artículos generales sobre monitores" (como si un médico diagnosticara a un paciente leyendo un libro de medicina general en lugar de revisar sus análisis de sangre).
- No ven lo que falta: Si una búsqueda devuelve 10 resultados y el sistema dice "máximo 10", el robot asumía que había terminado, aunque faltaban 50 más. No entendía el contexto.
- No exploran: Si había dos formas de resolver un problema, el robot se quedaba con la primera que veía, sin buscar la mejor opción.

3. La Solución: Entrenamiento con "Feedback de Expertos"

Aquí entra la magia. En lugar de dejar que el robot adivine, usaron un sistema de entrenamiento por refuerzo (RL) con una regla de oro: Las rúbricas de expertos.

La Analogía: Imagina que el robot es un estudiante de cocina.
- Antes: Le decías "haz un pastel". Si el pastel se quemaba, le decías "inténtalo de nuevo".
- Ahora (Corecraft): Tienes un chef experto que revisa cada paso. "Le faltó sal", "La temperatura estaba 5 grados muy alta", "No preguntaste al cliente si tenía alergia".
Cómo funciona: El robot intenta la tarea. Un "juez" (otra IA muy inteligente) revisa si cumplió todas las reglas del experto (¿encontró el dato correcto? ¿siguió la política de devoluciones? ¿el correo fue amable?). Si cumple todo, recibe una "recompensa" (puntos). Si falla, recibe cero.
El Entrenamiento: El robot practicó solo una vez (un "epoch") con este sistema.

4. Los Resultados: ¡El Robot Aprendió a Pensar!

Después de ese único entrenamiento, algo increíble pasó:

Mejoró en su propio gimnasio: Su tasa de éxito saltó del 25% al 36%. ¡Superó a modelos que antes eran mucho más inteligentes!
El Superpoder: Generalización (Transferencia): Esto es lo más importante. El robot no solo aprendió a arreglar computadoras. Aprendió cómo trabajar.
- Cuando lo pusieron a trabajar en otras tareas que nunca vio (como llamar a funciones de programación, gestionar inventarios de tiendas de ropa o usar herramientas de software complejas), ¡mejoró también!
- La Analogía: Es como si entrenaras a un atleta en natación en un río con corrientes fuertes, piedras y viento. Cuando lo llevas a una piscina olímpica (un entorno diferente), nada mejor que nunca, porque aprendió a nadar, no solo a moverse en ese río específico.

5. ¿Qué aprendió realmente el robot?

El paper dice que el robot aprendió tres habilidades vitales que sirven en cualquier trabajo:

Planificación: Saber que primero debes buscar el pedido, luego el producto, y luego la solución (no al revés).
Manejo de restricciones: Entender que "si compró hace 30 días, no se puede devolver", y aplicar esa regla con lógica.
Comunicación profesional: Escribir correos claros y estructurados, no solo soltar datos.

Conclusión: ¿Por qué importa esto?

Hasta ahora, las IAs eran como actores de teatro que memorizaban guiones para escenarios falsos. Cuando salían al escenario real, olvidaban las líneas.

Este paper demuestra que si entrenas a las IAs en entornos realistas, complejos y con reglas estrictas (como un trabajo real), aprenden habilidades de trabajo reales que pueden usar en cualquier lugar.

En resumen: Para crear robots que realmente funcionen en el mundo real, no necesitamos más videojuegos simples; necesitamos simuladores de trabajo real donde fallen, aprendan de sus errores con expertos y se vuelvan mejores. ¡Corecraft es ese simulador!

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "EnterpriseBench Corecraft: Training Generalizable Agents on High-Fidelity RL Environments", presentado en español:

1. El Problema

A pesar de los rápidos avances en las capacidades de los agentes de IA, su despliegue en entornos de producción sigue siendo limitado. Un estudio reciente indica que el 68% de los agentes desplegados requieren intervención humana después de solo diez pasos, citando la fiabilidad como el principal desafío.

Los autores identifican que esta brecha entre el rendimiento en benchmarks y la preparación para la producción se debe, en parte, a las características de los entornos de entrenamiento actuales:

Simplificación excesiva: Muchos benchmarks utilizan simulaciones simplificadas, datos sintéticos o estructuras de tareas artificiales que no capturan la complejidad de los flujos de trabajo reales.
Sobreajuste heurístico: Al entrenar en entornos poco realistas, los agentes aprenden heurísticas específicas del entorno en lugar de estrategias de resolución de problemas generalizables.
Falta de transferencia: Las habilidades adquiridas no se transfieren eficazmente a tareas fuera de la distribución de entrenamiento (out-of-distribution).

2. Metodología

El Entorno: Corecraft

Los autores introducen Corecraft, el primer entorno de la suite EnterpriseBench de Surge AI. Es una simulación de alta fidelidad de una organización de soporte técnico para una empresa ficticia de componentes de PC.

Estructura: Contiene más de 2.500 entidades de 14 tipos (clientes, pedidos, productos, tickets, etc.) y 23 herramientas únicas expuestas a través del Protocolo de Contexto del Modelo (MCP).
Diseño: Se basa en tres principios:
1. Diseño centrado en tareas: Cada entidad y herramienta existe para soportar tareas desafiantes, no solo para aumentar la complejidad del mundo.
2. Evaluación por expertos: Las tareas y las rúbricas detalladas son creadas por expertos del dominio, permitiendo una computación de recompensas automatizada y fiable.
3. Flujos de trabajo realistas: Las tareas imitan patrones profesionales genuinos, incluyendo razonamiento multi-paso, manejo de restricciones y comunicación estructurada.

Entrenamiento con RL

Modelo Base: Se utilizó GLM 4.6 (arquitectura MoE de 357B parámetros, con 32B activos).
Algoritmo: Se empleó Optimización de Política Relativa de Grupo (GRPO) con recorte adaptativo (inspirado en DAPO) para evitar el colapso de la entropía.
Proceso:
1. Generación de Trayectorias: El motor de rollout genera 16 respuestas por prompt, interactuando con contenedores Docker con estado para simular sesiones de soporte multi-turno.
2. Computación de Recompensas: Un juez LLM evalúa las trayectorias completas contra rúbricas expertas. La recompensa ( $r$ ) se calcula como la proporción de criterios satisfechos: $r = \frac{1}{|C|} \sum 1[\text{criterio } c \text{ satisfecho}]$ .
3. Actualización: Se realiza una sola época de entrenamiento con 1.000 tareas de entrenamiento y 150 de evaluación retenida (held-out).

3. Contribuciones Clave

Evidencia de Transferencia: Demostraron que entrenar en un entorno de alta fidelidad (Corecraft) produce mejoras que se transfieren a benchmarks externos no vistos durante el entrenamiento.
Mejora Significativa en Entorno: Lograron un aumento de 11.39 puntos porcentuales en la tasa de éxito de tareas en el conjunto de evaluación retenido de Corecraft, superando la brecha de capacidad entre modelos de vanguardia como Claude Sonnet 4.5 y Opus 4.5.
Análisis Cualitativo: Identificaron tres categorías de mejora aprendidas: ejecución de flujos de trabajo multi-paso, manejo de restricciones y calidad/estructura de la respuesta.
Marco de Entrenamiento: Validaron que la calidad, diversidad y realismo del entorno son factores críticos para la generalización, proponiendo un cambio de paradigma desde datos sintéticos hacia simulaciones empresariales realistas.

4. Resultados

Rendimiento In-Distribution (Corecraft)

GLM 4.6 (Línea Base): 25.37% de tasa de éxito.
GLM 4.6 (1 Época de Entrenamiento): 36.76% de tasa de éxito.
Comparativa: El modelo entrenado superó a Claude Opus 4.5 (33.49%) y se acercó al rendimiento de GPT-5.1 High (36.86%).

Generalización Out-of-Distribution (Transferencia)

El modelo entrenado mostró mejoras consistentes en benchmarks externos, demostrando que aprendió patrones generales y no solo trucos específicos de Corecraft:

BFCL Parallel (Llamadas de función paralelas): +4.5% (de 91.0% a 95.5%).
τ 2-Bench Retail (Servicio al cliente): +7.4% (de 68.7% a 76.1%).
Toolathlon (Uso de herramientas a largo plazo): +6.8% (de 18.8% a 25.6% en Pass@1).
- Nota: En Toolathlon, la métrica Pass3 (tasa de éxito en todas las 3 ejecuciones) se duplicó (de 9.3% a 17.6%), indicando una mejora significativa en la fiabilidad y consistencia, no solo en la capacidad máxima.

Análisis de Fallos de Modelos de Vanguardia

El estudio también reveló patrones de fallo en modelos de vanguardia (como GPT-5.2 y Claude Opus 4.6) en Corecraft, tales como:

Estrategias de búsqueda pobres (búsquedas genéricas en lugar de consultas específicas).
Fallo al paginar resultados incompletos (aceptar 10 resultados como completos sin verificar si hay más).
Exploración incompleta de herramientas (anclarse en la primera herramienta viable en lugar de explorar alternativas).

5. Significado e Implicaciones

El trabajo concluye que la calidad del entorno es tan crucial como la arquitectura del modelo para el desarrollo de agentes robustos.

Puente hacia la Producción: Los entornos de alta fidelidad que reflejan flujos de trabajo profesionales reales son necesarios para cerrar la brecha entre el rendimiento en benchmarks y la fiabilidad en producción.
Aprendizaje de Patrones Generales: Los agentes entrenados en Corecraft aprendieron competencias transferibles como la descomposición de tareas, el manejo de restricciones y la estructuración de respuestas, en lugar de heurísticas específicas del dominio.
Futuro de la Investigación: Se sugiere que el entrenamiento con rúbricas expertas en entornos complejos es un camino viable para superar las limitaciones actuales de los agentes, motivando futuras investigaciones en currículos multi-dominio y escalado de épocas de entrenamiento.

En resumen, el artículo demuestra que simular entornos empresariales realistas con evaluaciones rigurosas permite entrenar agentes de IA que no solo resuelven tareas específicas, sino que adquieren habilidades generalizables esenciales para el despliegue en el mundo real.