Rollout Cards: A Reproducibility Standard for Agent Research

Este artigo aborda os desafios de reprodutibilidade na pesquisa com agentes ao introduzir "cartões de execução", um formato padronizado de publicação que preserva registros brutos de execuções e declara explicitamente as regras de relato para garantir uma avaliação transparente e verificável de sistemas agênticos.

Autores originais: Charlie Masters, Ziyuan Liu, Stefano V. Albrecht

Publicado 2026-05-13✓ Author reviewed
📖 6 min de leitura🧠 Leitura aprofundada

Autores originais: Charlie Masters, Ziyuan Liu, Stefano V. Albrecht

Artigo original sob licença CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

Imagine que você é um crítico gastronômico avaliando um novo restaurante. O chef lhe entrega uma ficha de avaliação que diz: "Esta refeição recebeu 9,5 de 10". Mas o chef se recusa a mostrar a comida real, a receita ou as anotações sobre como decidiu essa pontuação. Ele apenas diz: "Confie em mim, é 9,5".

Agora, imagine que outro crítico prova exatamente a mesma refeição, mas dá a ela nota 6,0. Sem ver a comida ou a receita, você não tem como saber quem está certo. Será que o primeiro crítico usou uma escala diferente? Será que ele ignorou a torrada queimada? Será que ele contou a sobremesa como parte do prato principal?

Isso é exatamente o problema que as Cartões de Rollout (Rollout Cards) visam resolver no mundo dos "agentes" de IA (programas de computador inteligentes que realizam tarefas como escrever código, navegar na web ou resolver problemas de matemática).

Aqui está uma explicação simples do que o artigo diz, usando analogias do cotidiano:

O Problema: A Pontuação da "Caixa Preta"

Atualmente, quando pesquisadores publicam resultados sobre agentes de IA, eles geralmente compartilham apenas a pontuação final (o "9,5"). Eles descartam o registro de rollout.

  • O Registro de Rollout: Pense nisso como a gravação de vídeo completa da IA executando a tarefa. Inclui cada passo que ela deu, cada ferramenta em que clicou, cada erro que cometeu, quanto tempo levou e se travou ou ficou presa.
  • O Problema: Diferentes equipes de pesquisa usam "regras" diferentes para transformar esse vídeo em uma pontuação.
    • Equipe A pode dizer: "Se a IA travar, ignoramos essa tentativa."
    • Equipe B pode dizer: "Se a IA travar, isso conta como zero."
    • Equipe C pode dizer: "Contamos apenas a resposta final, ignorando os 50 passos que ela levou para chegar lá."

O artigo descobriu que nenhum dos 50 repositórios populares de pesquisa em IA que verificaram relatou quantas tentativas falharam ou travaram ao lado de sua pontuação principal. É como um time de esportes dizer: "Ganhamos 3 jogos!", mas esconder o fato de que perderam 10 jogos e contaram apenas os 3 que venceram.

A Evidência: As Regras Mudam o Jogo

Os autores auditaram 50 ferramentas diferentes de IA e encontraram 37 casos específicos onde mudar o "livro de regras" alterava completamente a pontuação, mesmo que a IA tivesse feito exatamente a mesma coisa.

  • O Exemplo "MMLU": O mesmo modelo de IA (LLaMA-65B) obteve uma pontuação de 63,7 sob um conjunto de regras e 48,8 sob outro. Essa é uma diferença enorme apenas devido à forma como a pontuação foi calculada, não porque a IA mudou.
  • O Exemplo "SWE-bench": Em tarefas de engenharia de software, contar ou descartar "tentativas falhas" como parte do total alterou a taxa de sucesso em 15,6 pontos percentuais.
  • O Exemplo "MLE-Bench": Dependendo de se você define um "sucesso" como ganhar uma medalha de ouro ou apenas obter uma nota de aprovação, a taxa de sucesso das mesmas submissões de IA caiu de 34,2% para 13,3%.

O artigo argumenta que, sem a gravação de vídeo (o rollout), não podemos dizer se a IA é realmente melhor, ou se o pesquisador apenas usou um livro de regras mais indulgente.

A Solução: O "Cartão de Rollout"

Para corrigir isso, os autores propõem um novo padrão chamado Cartão de Rollout.

Pense em um Cartão de Rollout como uma caixa de receitas transparente e à prova de adulteração que você deve incluir com seu prato final. Ela contém:

  1. O Vídeo Completo: O registro completo das ações, erros e tempos da IA.
  2. O Livro de Regras: Uma declaração clara de exatamente como a pontuação foi calculada (por exemplo: "Ignoramos travamentos" ou "Contamos cada token").
  3. A Lista de "Peças Faltantes": Uma nota honesta dizendo: "Não conseguimos compartilhar o vídeo completo devido à privacidade, então aqui está exatamente o que cortamos".

Isso permite que outros cientistas vejam o mesmo vídeo e façam perguntas diferentes. Talvez o artigo original só se importasse com "Ele concluiu a tarefa?", mas um novo pesquisador queira perguntar: "Ele usou dinheiro demais?" ou "Ele fez chamadas de ferramentas perigosas?". Com o Cartão de Rollout, eles podem responder a essas perguntas sem precisar executar o experimento caro novamente.

O Que Eles Realmente Fizeram (Os Experimentos)

Os autores não apenas falaram sobre isso; eles testaram com dados reais:

  1. Redescobrindo Insights Ocultos: Eles pegaram quatro conjuntos de dados públicos existentes (de ferramentas como GAP, MAESTRO, COPRA e Tree-of-Thought) que haviam sido publicados anteriormente. Ao aplicar o método do Cartão de Rollout, encontraram novos fatos que os artigos originais haviam perdido.

    • Exemplo: Eles descobriram que 20% das respostas de IA que pareciam "seguras" no texto na verdade faziam chamadas de ferramentas proibidas em segundo plano. A pontuação original perdeu isso porque olharam apenas para o texto.
    • Exemplo: Eles descobriram que, em equipes de múltiplos agentes, os "fracassos" na verdade envolviam muito mais trabalho de coordenação do que os "sucessos", sugerindo que trabalho extra nem sempre significa respostas melhores.
  2. Reavaliando o Mesmo Trabalho: Eles pegaram submissões públicas de IA (como patches de código ou respostas de matemática) e reavaliaram-nas usando diferentes livros de regras.

    • Resultado: Alterar apenas a regra de pontuação mudou as pontuações relatadas em até 20,9 pontos percentuais. Em alguns casos, isso inverteu o ranking, fazendo uma IA "pior" parecer a "vencedora" apenas porque o livro de regras mudou.

A Conclusão

O artigo conclui que publicar apenas uma pontuação é como publicar a nota de um exame final sem o papel da prova. Esconde os detalhes que importam.

Ao introduzir os Cartões de Rollout, os autores querem tornar a pesquisa em IA reprodutível. Eles já lançaram uma ferramenta gratuita e de código aberto (chamada ERGON) e 21 conjuntos de dados públicos (Cartões de Rollout) cobrindo tarefas como engenharia de software, navegação na web e matemática. Isso permite que qualquer pessoa inspecione a "gravação de vídeo" por trás das pontuações, garantindo que, quando dizemos que uma IA é inteligente, sabemos realmente por que e como a medimos.

O que o artigo NÃO afirma:

  • Não afirma que isso tornará a IA mais segura ou poderosa por si só.
  • Não afirma que isso resolve todos os problemas de privacidade (você ainda precisa decidir o que esconder).
  • Não afirma que isso é uma nova maneira de treinar IA; é uma nova maneira de relatar e auditar os resultados do treinamento de IA.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →