daVinci-Env: Open SWE Environment Synthesis at Scale

El artículo presenta OpenSWE, un marco de código abierto y transparente que sintetiza a escala 45.320 entornos Docker ejecutables mediante un pipeline de agentes multi-modelo, logrando un rendimiento de vanguardia en SWE-bench Verified y mejoras significativas en razonamiento matemático y científico tras una inversión total de 1,47 millones de dólares.

Dayuan Fu, Shenyu Wu, Yunze Wu, Zerui Peng, Yaxing Huang, Jie Sun, Ji Zeng, Mohan Jiang, Lin Zhang, Yukun Li, Jiarui Hu, Liming Liu, Jinlong Hou, Pengfei Liu

Publicado 2026-03-16
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que quieres enseñarle a un robot a ser un programador experto. No basta con darle un libro de texto; necesitas ponerlo a trabajar en una "fábrica" real donde pueda cometer errores, ver qué pasa cuando su código falla, y aprender a arreglarlo.

Este paper, llamado OpenSWE, es como la construcción de la fábrica de programación más grande, transparente y bien organizada del mundo para entrenar a estos robots (llamados "agentes de IA").

Aquí te lo explico con analogías sencillas:

1. El Problema: La "Fábrica" estaba cerrada o era muy pequeña

Antes de este proyecto, había dos problemas grandes para entrenar a estos robots:

  • Las fábricas públicas eran pequeñas: Los grupos de investigación tenían "talleres" pequeños con pocos problemas reales para practicar.
  • Las fábricas privadas eran secretas: Las grandes empresas tenían talleres gigantes, pero no dejaban entrar a nadie ni mostraban cómo funcionaban. Era como si tuvieras un coche de carreras pero no pudieras ver el motor ni aprender a repararlo.

2. La Solución: OpenSWE (La "Super-Fábrica" Abierta)

Los autores (de SII, GAIR y la Universidad de Shanghái) construyeron OpenSWE.

  • La Escala: Imagina que tienen 45,000 "cajas de herramientas" (entornos Docker) listas para usar. Cada caja contiene un proyecto de código real de internet (como un sitio web o una app) y un "problema" específico que hay que solucionar.
  • La Transparencia: A diferencia de las empresas secretas, ellos abrieron las puertas. Cualquiera puede ver cómo construyeron las cajas, cómo prueban los arreglos y cómo funciona todo. Es como si te dieran el plano completo de la fábrica, no solo el coche terminado.

3. ¿Cómo la construyeron? (El "Equipo de Obreros Robot")

Construir 45,000 cajas de herramientas a mano sería imposible y costaría una fortuna. Así que usaron un equipo de robots inteligentes (agentes) que trabajaron en una granja de servidores (64 computadoras potentes) durante dos semanas.

El proceso fue como una línea de montaje:

  1. El Explorador: Un robot busca en miles de proyectos de código reales para encontrar problemas interesantes.
  2. El Constructor: Otro robot prepara la "caja" (el entorno) para que el código funcione, instalando todas las herramientas necesarias.
  3. El Juez: Un robot crea un examen (un script de prueba) para ver si la solución funciona.
  4. El Controlador de Calidad: Aquí está la magia. Muchos problemas en internet son "trampa": o son tan fáciles que no enseñan nada, o son imposibles de resolver. El sistema filtra estos problemas. Solo guarda los que son un "buen reto": ni muy fáciles, ni imposibles.

La inversión: Construir esta fábrica costó unos 1.47 millones de dólares (en computación y tiempo). Es una inversión enorme, pero necesaria para tener datos de alta calidad.

4. El Resultado: Robots que aprenden de verdad

Entrenaron a dos modelos de IA (uno pequeño de 32 mil millones de "células" y otro gigante de 72 mil millones) usando esta nueva fábrica.

  • Rendimiento: Estos robots lograron resolver el 66% de los problemas más difíciles de la industria (SWE-bench), superando a todos los demás modelos anteriores. Es como si un estudiante de ingeniería pasara de aprobar un 60% a un 90% en el examen final.
  • Escalabilidad: Descubrieron que cuanto más practican, mejor se ponen, y no parece que vayan a cansarse nunca. No hay un "techo" donde dejar de mejorar; más datos de calidad siempre significan mejores resultados.
  • Efecto Secundario Sorprendente: Al entrenarlos para arreglar código, también se volvieron más inteligentes en matemáticas y ciencias. ¡Parece que aprender a pensar lógicamente para arreglar un código ayuda a resolver problemas de física o matemáticas!

En resumen

OpenSWE es como si la comunidad científica decidiera construir una Universidad de Ingeniería de Software gigante y abierta, con miles de laboratorios reales, y le dijera a todos: "Aquí tienen los planos, los laboratorios y los problemas. ¡Aprendan!".

Gracias a esto, ahora tenemos los mejores "robots programadores" del mundo, y lo más importante: todos podemos ver cómo los hicimos y aprender de ellos.

¿Dónde encontrarlo?
Todo está disponible gratis en GitHub para que cualquiera lo use y mejore: github.com/GAIR-NLP/OpenSWE.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →