Autores originales: Charlie Masters, Ziyuan Liu, Stefano V. Albrecht

Publicado 2026-05-13✓ Author reviewed ⓘ

📖 6 min de lectura🧠 Análisis profundo

Autores originales: Charlie Masters, Ziyuan Liu, Stefano V. Albrecht

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Imagina que eres un crítico gastronómico revisando un nuevo restaurante. El chef te entrega una tarjeta de puntuación que dice: "Esta comida es un 9.5 sobre 10". Pero el chef se niega a mostrarte la comida real, la receta o las notas sobre cómo decidieron esa puntuación. Solo dicen: "Confía en mí, es un 9.5".

Ahora, imagina que otro crítico prueba exactamente la misma comida pero le da un 6.0. Sin ver la comida ni la receta, no tienes forma de saber quién tiene razón. ¿Usó el primer crítico una escala diferente? ¿Ignoró el pan tostado quemado? ¿Contó el postre como parte del plato principal?

Este es exactamente el problema que las Tarjetas de Despliegue (Rollout Cards) buscan resolver en el mundo de los "agentes" de IA (programas informáticos inteligentes que realizan tareas como escribir código, navegar por la web o resolver problemas matemáticos).

Aquí tienes una explicación sencilla de lo que dice el artículo, utilizando analogías cotidianas:

El Problema: La Puntuación de la "Caja Negra"

Actualmente, cuando los investigadores publican resultados sobre agentes de IA, generalmente solo comparten la puntuación final (el "9.5"). Tiran a la basura el registro de despliegue.

El Registro de Despliegue: Piensa en esto como la grabación de video completa de la IA realizando la tarea. Incluye cada paso que dio, cada herramienta en la que hizo clic, cada error que cometió, cuánto tiempo tardó y si se bloqueó o se quedó atascada.
El Problema: Diferentes equipos de investigación utilizan diferentes "reglas" para convertir ese video en una puntuación.
- Equipo A podría decir: "Si la IA se bloquea, ignoramos ese intento".
- Equipo B podría decir: "Si la IA se bloquea, eso cuenta como un cero".
- Equipo C podría decir: "Solo contamos la respuesta final, ignorando los 50 pasos que tomó para llegar allí".

El artículo encontró que ninguno de los 50 repositorios de investigación de IA populares que revisaron informó cuántos intentos fallaron o se bloquearon junto con su puntuación principal. Es como si un equipo deportivo dijera: "¡Ganamos 3 partidos!" pero ocultara el hecho de que perdieron 10 partidos y solo contaron los 3 que ganaron.

La Evidencia: Las Reglas Cambian el Juego

Los autores auditaron 50 herramientas de IA diferentes y encontraron 37 casos específicos donde cambiar el "reglamento" cambiaba completamente la puntuación, incluso aunque la IA hiciera exactamente lo mismo.

El Ejemplo "MMLU": El mismo modelo de IA (LLaMA-65B) obtuvo una puntuación de 63.7 bajo un conjunto de reglas y 48.8 bajo otro. Esa es una diferencia enorme solo por cómo se calculó la puntuación, no porque la IA cambiara.
El Ejemplo "SWE-bench": En tareas de ingeniería de software, si cuentas los "intentos fallidos" como parte del total o los descartas, cambia la tasa de éxito en 15.6 puntos porcentuales.
El Ejemplo "MLE-Bench": Dependiendo de si defines un "aprobado" como obtener una medalla de oro o simplemente una calificación aprobatoria, la tasa de éxito de las mismas envíos de IA cayó del 34.2% al 13.3%.

El artículo argumenta que sin la grabación de video (el despliegue), no podemos decir si la IA es realmente mejor, o si el investigador simplemente utilizó un reglamento más indulgente.

La Solución: La "Tarjeta de Despliegue"

Para solucionar esto, los autores proponen un nuevo estándar llamado Tarjeta de Despliegue.

Piensa en una Tarjeta de Despliegue como una caja de recetas transparente e inalterable que debes incluir con tu plato final. Contiene:

El Video Completo: El registro completo de las acciones, errores y tiempos de la IA.
El Reglamento: Una declaración clara de exactamente cómo se calculó la puntuación (por ejemplo, "Ignoramos los bloqueos" o "Contamos cada token").
La Lista de "Piezas Faltantes": Una nota honesta que dice: "No pudimos compartir el video completo debido a la privacidad, así que esto es exactamente lo que recortamos".

Esto permite que otros científicos vean el mismo video y hagan preguntas diferentes. Quizás el artículo original solo se preocupaba por "¿Terminó la tarea?", pero un nuevo investigador quiere preguntar: "¿Usó demasiado dinero?" o "¿Hizo llamadas a herramientas peligrosas?". Con la Tarjeta de Despliegue, pueden responder a esas preguntas sin tener que ejecutar el experimento costoso de nuevo.

Lo Que Realmente Hicieron (Los Experimentos)

Los autores no solo hablaron de esto; lo probaron con datos reales:

Redescubrir Hallazgos Ocultos: Tomaron cuatro conjuntos de datos públicos existentes (de herramientas como GAP, MAESTRO, COPRA y Tree-of-Thought) que habían sido publicados anteriormente. Al aplicar el método de la Tarjeta de Despliegue, encontraron nuevos hechos que los artículos originales pasaron por alto.
- Ejemplo: Descubrieron que el 20% de las respuestas de la IA que parecían "seguras" en texto en realidad hacían llamadas a herramientas prohibidas en segundo plano. La puntuación original pasó esto por alto porque solo miraron el texto.
- Ejemplo: Descubrieron que en equipos de múltiples agentes, los "fallos" en realidad involucraban mucho más trabajo de coordinación que los "éxitos", lo que sugiere que el trabajo extra no siempre significa mejores respuestas.
Reevaluar el Mismo Trabajo: Tomaron envíos públicos de IA (como parches de código o respuestas matemáticas) y los reevaluaron utilizando diferentes reglamentos.
- Resultado: Cambiar solo la regla de puntuación cambió las puntuaciones reportadas hasta en 20.9 puntos porcentuales. En algunos casos, invirtió el ranking, haciendo que una IA "peor" pareciera la "ganadora" simplemente porque cambió el reglamento.

La Conclusión

El artículo concluye que publicar solo una puntuación es como publicar la calificación de un examen final sin el papel del examen. Oculta los detalles que importan.

Al introducir las Tarjetas de Despliegue, los autores quieren hacer que la investigación de IA sea reproducible. Ya han lanzado una herramienta gratuita y de código abierto (llamada ERGON) y 21 conjuntos de datos públicos (Tarjetas de Despliegue) que cubren tareas como ingeniería de software, navegación web y matemáticas. Esto permite que cualquiera inspeccione la "grabación de video" detrás de las puntuaciones, asegurando que cuando digamos que una IA es inteligente, realmente sepamos por qué y cómo la medimos.

Lo que el artículo NO afirma:

No afirma que esto hará que la IA sea más segura o más poderosa por sí sola.
No afirma que esto resuelva todos los problemas de privacidad (todavía tienes que decidir qué ocultar).
No afirma que esto sea una nueva forma de entrenar IA; es una nueva forma de informar y auditar los resultados del entrenamiento de IA.

Resumen Técnico: Tarjetas de Despliegue: Un Estándar de Reproducibilidad para la Investigación de Agentes

Declaración del Problema

El artículo identifica una crisis crítica de reproducibilidad emergente en la investigación de agentes, que refleja problemas históricos en el aprendizaje automático y el aprendizaje por refuerzo. Las prácticas actuales priorizan la publicación de puntuaciones reportadas (por ejemplo, precisión, tasas de aprobación) mientras descartan los registros de despliegue subyacentes (el rastro completo de las interacciones agente-entorno) y las reglas de reporte específicas utilizadas para calcular dichas puntuaciones.

Esta fragmentación crea dos modos de fallo principales:

Fallo de Registro: Los lotes de despliegue se puntúan una vez y se descartan. Sin los registros brutos, los investigadores posteriores no pueden reanalizar los mismos episodios para estudiar comportamientos omitidos en el informe original (por ejemplo, violaciones de seguridad en llamadas a herramientas, sobrecarga de coordinación en sistemas de múltiples agentes) ni aplicar nuevas perspectivas a los datos. Volver a ejecutar estos experimentos suele ser prohibitivamente costoso debido al aumento de los costos de inferencia de modelos de vanguardia y la rápida obsolescencia de los andamios de evaluación.
Fallo de Reporte: Las reglas de reporte (los procedimientos que convierten las perspectivas de los despliegues en puntuaciones) varían entre marcos de trabajo y rara vez se divulgan. Esto genera discrepancias significativas en las puntuaciones para comportamientos subyacentes idénticos. La auditoría de los autores de 50 repositorios populares encontró que ninguno reporta despliegues fallidos, con errores o omitidos junto con las puntuaciones principales. Además, documentaron 37 casos donde reglas de reporte diferentes (por ejemplo, contabilidad de tokens, manejo de fallos, plantillas de prompts) resultaron en variaciones dramáticas de puntuación, cambiando a veces las clasificaciones de modelos o las tasas de éxito en más de 20 puntos porcentuales.

Metodología

Los autores proponen un cambio en la unidad de reproducibilidad, pasando de la "puntuación reportada" al registro de despliegue, acompañado de declaraciones explícitas sobre cómo se procesa dicho registro.

La Tarjeta de Despliegue

La contribución central es la Tarjeta de Despliegue, un paquete de publicación diseñado como una especificación mínima suficiente. Consiste en:

Registro de Despliegue: Un archivo auto-descriptivo que contiene la evidencia del episodio: especificación de la tarea, estado del entorno, acciones del agente (mensajes, llamadas a herramientas), artefactos, temporización y estado terminal. Crucialmente, trata los fallos como cambios de estado dentro del registro en lugar de excepciones que eluden el registro.
Registro de Reglas de Reporte: Una declaración de cada perspectiva y regla de reporte aplicada al registro para generar una puntuación reportada, incluidos detalles de implementación y versiones.
Manifiesto de Eliminaciones: Un registro tipificado que especifica qué campos, filas o flujos fueron leídos, filtrados o colapsados por un análisis específico. Esto documenta explícitamente qué información fue omitida, permitiendo a futuros investigadores comprender las limitaciones de una perspectiva reportada.
Metadatos del Alcance de la Liberación: Declaraciones sobre la redacción, la licencia y los límites de acceso.

Los autores implementaron una especificación de referencia en ERGON, un gimnasio de aprendizaje por refuerzo de código abierto, que actúa como un adaptador de conjunto de datos ligero para validar, mapear y exportar estos paquetes.

Evaluación Empírica

El artículo valida la utilidad de las Tarjetas de Despliegue mediante dos experimentos retrospectivos utilizando artefactos públicos:

RQ1 (Reutilización de Registros Preservados): Los autores analizaron cuatro liberaciones públicas (GAP, MAESTRO, registros miniF2F de COPRA y Tree-of-Thought) que preservaron evidencia de despliegue suficiente. Computaron análisis secundarios que los artículos originales no reportaron:
- GAP: Descubrió que el 20,6 % de las respuestas certificadas como "seguras para texto" contenían en realidad llamadas a herramientas prohibidas, un fallo invisible para las puntuaciones de seguridad basadas solo en texto.
- MAESTRO: Reveló que las ejecuciones de múltiples agentes fallidas incurrieron en 5 veces más tramos de coordinación y 7 veces más tokens que las ejecuciones exitosas, contradiciendo la suposición de que la colaboración adicional siempre mejora los resultados.
- COPRA: Mostró que los pasos extendidos de búsqueda de pruebas se correlacionaron negativamente con el éxito, sugiriendo que los pasos repetidos a menudo indican una recuperación fallida en lugar de un razonamiento útil.
- Tree-of-Thought: Demostró que las estrategias de poda podían preservar las recompensas finales mientras reducían significativamente la exploración desperdiciada, un matiz oculto por las métricas de recompensa final por sí solas.
RQ2 (Impacto de las Reglas de Reporte): Los autores mantuvieron fijos los artefactos de referencia (por ejemplo, envíos de GPT-4o a SWE-bench, envíos de Kaggle para MLE-Bench) y aplicaron reglas de reporte alternativas.
- Cambiar la definición de "éxito" o el manejo de parches faltantes en SWE-bench alteró la brecha de capacidad reportada entre agentes en 2,3 puntos porcentuales.
- Cambiar el evaluador en $\tau$ -bench invirtió la clasificación de los modelos de vanguardia (GPT-4o vs. Claude 3.5 Sonnet) en 16,9 puntos porcentuales.
- Cambiar la definición de medalla/aprobación para MLE-Bench redujo la tasa de aprobación del 34,2 % al 13,3 % (una brecha de 20,9 puntos).

Contribuciones Clave

Diagnóstico de Fallos de Publicación: Una auditoría estructurada de 50 repositorios y un catálogo de 37 discrepancias de reglas de reporte que demuestran que las prácticas actuales ocultan fallos y oscurecen la naturaleza convencional de las brechas de puntuación.
Especificación de Tarjeta de Despliegue: Un estándar formal de publicación que preserva el registro de despliegue, declara las perspectivas y reglas aplicadas, y documenta las omisiones mediante manifiestos de eliminaciones.
Implementación de Referencia y Liberación de Datos: Una implementación de código abierto en ERGON y la liberación pública de 21 exportaciones de tarjetas de despliegue (17 exportaciones de publicación de trazas y 4 exportaciones de vista analítica/recuperada) que cubren el uso de herramientas, la ingeniería de software, la seguridad y la búsqueda.

Resultados

Reutilización Científica: Los registros de despliegue preservados permitieron descubrir fallos de seguridad, sobrecargas de coordinación e ineficiencias de búsqueda que no eran visibles en las puntuaciones reportadas originales.
Sensibilidad a la Convención: Los experimentos confirmaron que las reglas de reporte no son neutrales; cambiarlas sobre evidencia fija puede alterar las puntuaciones reportadas en hasta 20,9 puntos porcentuales e invertir las clasificaciones de modelos.
Transparencia: La estructura de la Tarjeta de Despliegue hace transparente la "caja negra" de la evaluación, permitiendo que los desacuerdos se rastreen hasta elecciones específicas de reporte en lugar de comportamientos ambiguos del modelo.

Significado y Afirmaciones

El artículo afirma que publicar solo puntuaciones extrae solo una fracción del valor de los experimentos con agentes. Al tratar los registros de despliegue como la unidad de reproducibilidad, la comunidad puede:

Mitigar el Problema de Registro: Permitir que se planteen nuevas preguntas científicas sobre datos existentes y costosos sin volver a ejecutar agentes de vanguardia.
Mitigar el Problema de Reporte: Hacer que los cambios de puntuación impulsados por convenciones sean inspeccionables, permitiendo a los investigadores distinguir entre el comportamiento del agente y las reglas utilizadas para registrarlo.

Los autores son modestos sobre el alcance, señalando que las Tarjetas de Despliegue no previenen la elección selectiva de métricas, las restricciones de privacidad o la redacción. En cambio, su función es hacer que el registro, la regla y las omisiones sean inspeccionables, asegurando que los desacuerdos puedan rastrearse hasta evidencia preservada, elecciones de reporte o el comportamiento real del agente. El trabajo tiene como objetivo apoyar la investigación futura, los meta-análisis y las comparaciones de reglas de reporte sin requerir nuevos presupuestos costosos de despliegue de vanguardia.

Rollout Cards: A Reproducibility Standard for Agent Research