Autores originais: Charlie Masters, Ziyuan Liu, Stefano V. Albrecht

Publicado 2026-05-13✓ Author reviewed ⓘ

📖 6 min de leitura🧠 Leitura aprofundada

Autores originais: Charlie Masters, Ziyuan Liu, Stefano V. Albrecht

Artigo original sob licença CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

Imagine que você é um crítico gastronômico avaliando um novo restaurante. O chef lhe entrega uma ficha de avaliação que diz: "Esta refeição recebeu 9,5 de 10". Mas o chef se recusa a mostrar a comida real, a receita ou as anotações sobre como decidiu essa pontuação. Ele apenas diz: "Confie em mim, é 9,5".

Agora, imagine que outro crítico prova exatamente a mesma refeição, mas dá a ela nota 6,0. Sem ver a comida ou a receita, você não tem como saber quem está certo. Será que o primeiro crítico usou uma escala diferente? Será que ele ignorou a torrada queimada? Será que ele contou a sobremesa como parte do prato principal?

Isso é exatamente o problema que as Cartões de Rollout (Rollout Cards) visam resolver no mundo dos "agentes" de IA (programas de computador inteligentes que realizam tarefas como escrever código, navegar na web ou resolver problemas de matemática).

Aqui está uma explicação simples do que o artigo diz, usando analogias do cotidiano:

O Problema: A Pontuação da "Caixa Preta"

Atualmente, quando pesquisadores publicam resultados sobre agentes de IA, eles geralmente compartilham apenas a pontuação final (o "9,5"). Eles descartam o registro de rollout.

O Registro de Rollout: Pense nisso como a gravação de vídeo completa da IA executando a tarefa. Inclui cada passo que ela deu, cada ferramenta em que clicou, cada erro que cometeu, quanto tempo levou e se travou ou ficou presa.
O Problema: Diferentes equipes de pesquisa usam "regras" diferentes para transformar esse vídeo em uma pontuação.
- Equipe A pode dizer: "Se a IA travar, ignoramos essa tentativa."
- Equipe B pode dizer: "Se a IA travar, isso conta como zero."
- Equipe C pode dizer: "Contamos apenas a resposta final, ignorando os 50 passos que ela levou para chegar lá."

O artigo descobriu que nenhum dos 50 repositórios populares de pesquisa em IA que verificaram relatou quantas tentativas falharam ou travaram ao lado de sua pontuação principal. É como um time de esportes dizer: "Ganhamos 3 jogos!", mas esconder o fato de que perderam 10 jogos e contaram apenas os 3 que venceram.

A Evidência: As Regras Mudam o Jogo

Os autores auditaram 50 ferramentas diferentes de IA e encontraram 37 casos específicos onde mudar o "livro de regras" alterava completamente a pontuação, mesmo que a IA tivesse feito exatamente a mesma coisa.

O Exemplo "MMLU": O mesmo modelo de IA (LLaMA-65B) obteve uma pontuação de 63,7 sob um conjunto de regras e 48,8 sob outro. Essa é uma diferença enorme apenas devido à forma como a pontuação foi calculada, não porque a IA mudou.
O Exemplo "SWE-bench": Em tarefas de engenharia de software, contar ou descartar "tentativas falhas" como parte do total alterou a taxa de sucesso em 15,6 pontos percentuais.
O Exemplo "MLE-Bench": Dependendo de se você define um "sucesso" como ganhar uma medalha de ouro ou apenas obter uma nota de aprovação, a taxa de sucesso das mesmas submissões de IA caiu de 34,2% para 13,3%.

O artigo argumenta que, sem a gravação de vídeo (o rollout), não podemos dizer se a IA é realmente melhor, ou se o pesquisador apenas usou um livro de regras mais indulgente.

A Solução: O "Cartão de Rollout"

Para corrigir isso, os autores propõem um novo padrão chamado Cartão de Rollout.

Pense em um Cartão de Rollout como uma caixa de receitas transparente e à prova de adulteração que você deve incluir com seu prato final. Ela contém:

O Vídeo Completo: O registro completo das ações, erros e tempos da IA.
O Livro de Regras: Uma declaração clara de exatamente como a pontuação foi calculada (por exemplo: "Ignoramos travamentos" ou "Contamos cada token").
A Lista de "Peças Faltantes": Uma nota honesta dizendo: "Não conseguimos compartilhar o vídeo completo devido à privacidade, então aqui está exatamente o que cortamos".

Isso permite que outros cientistas vejam o mesmo vídeo e façam perguntas diferentes. Talvez o artigo original só se importasse com "Ele concluiu a tarefa?", mas um novo pesquisador queira perguntar: "Ele usou dinheiro demais?" ou "Ele fez chamadas de ferramentas perigosas?". Com o Cartão de Rollout, eles podem responder a essas perguntas sem precisar executar o experimento caro novamente.

O Que Eles Realmente Fizeram (Os Experimentos)

Os autores não apenas falaram sobre isso; eles testaram com dados reais:

Redescobrindo Insights Ocultos: Eles pegaram quatro conjuntos de dados públicos existentes (de ferramentas como GAP, MAESTRO, COPRA e Tree-of-Thought) que haviam sido publicados anteriormente. Ao aplicar o método do Cartão de Rollout, encontraram novos fatos que os artigos originais haviam perdido.
- Exemplo: Eles descobriram que 20% das respostas de IA que pareciam "seguras" no texto na verdade faziam chamadas de ferramentas proibidas em segundo plano. A pontuação original perdeu isso porque olharam apenas para o texto.
- Exemplo: Eles descobriram que, em equipes de múltiplos agentes, os "fracassos" na verdade envolviam muito mais trabalho de coordenação do que os "sucessos", sugerindo que trabalho extra nem sempre significa respostas melhores.
Reavaliando o Mesmo Trabalho: Eles pegaram submissões públicas de IA (como patches de código ou respostas de matemática) e reavaliaram-nas usando diferentes livros de regras.
- Resultado: Alterar apenas a regra de pontuação mudou as pontuações relatadas em até 20,9 pontos percentuais. Em alguns casos, isso inverteu o ranking, fazendo uma IA "pior" parecer a "vencedora" apenas porque o livro de regras mudou.

A Conclusão

O artigo conclui que publicar apenas uma pontuação é como publicar a nota de um exame final sem o papel da prova. Esconde os detalhes que importam.

Ao introduzir os Cartões de Rollout, os autores querem tornar a pesquisa em IA reprodutível. Eles já lançaram uma ferramenta gratuita e de código aberto (chamada ERGON) e 21 conjuntos de dados públicos (Cartões de Rollout) cobrindo tarefas como engenharia de software, navegação na web e matemática. Isso permite que qualquer pessoa inspecione a "gravação de vídeo" por trás das pontuações, garantindo que, quando dizemos que uma IA é inteligente, sabemos realmente por que e como a medimos.

O que o artigo NÃO afirma:

Não afirma que isso tornará a IA mais segura ou poderosa por si só.
Não afirma que isso resolve todos os problemas de privacidade (você ainda precisa decidir o que esconder).
Não afirma que isso é uma nova maneira de treinar IA; é uma nova maneira de relatar e auditar os resultados do treinamento de IA.

Resumo Técnico: Cartões de Rollout: Um Padrão de Reprodutibilidade para Pesquisa de Agentes

Declaração do Problema

O artigo identifica uma crise crítica de reprodutibilidade emergente na pesquisa de agentes, espelhando problemas históricos em aprendizado de máquina e aprendizado por reforço. As práticas atuais priorizam a publicação de pontuações reportadas (por exemplo, precisão, taxas de aprovação), descartando os registros de rollout (o rastro completo das interações agente-ambiente) e as regras de reporte específicas usadas para calcular essas pontuações.

Essa fragmentação cria dois modos de falha primários:

Falha de Registro: Lotes de rollout são pontuados uma vez e descartados. Sem os registros brutos, pesquisadores posteriores não podem reanalisar os mesmos episódios para estudar comportamentos omitidos no relatório original (por exemplo, violações de segurança em chamadas de ferramentas, sobrecarga de coordenação em sistemas multiagente) ou aplicar novas visualizações aos dados. Reexecutar esses experimentos é frequentemente proibitivamente caro devido aos custos crescentes de inferência de modelos de fronteira e à obsolescência rápida dos scaffolds de avaliação.
Falha de Reporte: As regras de reporte (os procedimentos que convertem visualizações de rollouts em pontuações) variam entre frameworks e raramente são divulgadas. Isso leva a discrepâncias significativas de pontuação para comportamentos subjacentes idênticos. A auditoria dos autores de 50 repositórios populares constatou que nenhum reporta rollouts falhados, com erro ou pulados juntamente com as pontuações principais. Além disso, eles documentaram 37 casos onde regras de reporte diferentes (por exemplo, contagem de tokens, tratamento de falhas, modelos de prompt) resultaram em variações dramáticas de pontuação, às vezes alterando classificações de modelos ou taxas de sucesso em mais de 20 pontos percentuais.

Metodologia

Os autores propõem uma mudança na unidade de reprodutibilidade da "pontuação reportada" para o registro de rollout, acoplado a declarações explícitas de como esse registro é processado.

O Cartão de Rollout

A contribuição central é o Cartão de Rollout, um pacote de publicação projetado como uma especificação mínima-suficiente. Ele consiste em:

Registro de Rollout: Um arquivo auto-descritivo contendo a evidência do episódio: especificação da tarefa, estado do ambiente, ações do agente (mensagens, chamadas de ferramentas), artefatos, temporização e status terminal. Crucialmente, trata falhas como mudanças de status dentro do registro, em vez de exceções que contornam o registro de logs.
Registro de Regras de Reporte: Uma declaração de cada visualização e regra de reporte aplicada ao registro para gerar uma pontuação reportada, incluindo detalhes de implementação e versões.
Manifesto de Exclusões (Drops Manifest): Um registro tipificado especificando quais campos, linhas ou fluxos foram lidos, filtrados ou colapsados por uma análise específica. Isso documenta explicitamente quais informações foram omitidas, permitindo que pesquisadores futuros compreendam as limitações de uma visualização reportada.
Metadados de Escopo de Lançamento: Declarações relativas a redação, licenciamento e limites de acesso.

Os autores implementaram uma especificação de referência em ERGON, um ginásio de aprendizado por reforço de código aberto, que atua como um adaptador de conjunto de dados leve para validar, mapear e exportar esses pacotes.

Avaliação Empírica

O artigo valida a utilidade dos Cartões de Rollout através de dois experimentos retrospectivos usando artefatos públicos:

PQ1 (Reutilizabilidade de Registros Preservados): Os autores analisaram quatro lançamentos públicos (GAP, MAESTRO, logs miniF2F do COPRA e Tree-of-Thought) que preservaram evidência de rollout suficiente. Eles calcularam análises secundárias que os artigos originais não reportaram:
- GAP: Descobriu que 20,6% das respostas certificadas como "seguras para texto" realmente continham chamadas de ferramentas proibidas, uma falha invisível para pontuações de segurança baseadas apenas em texto.
- MAESTRO: Revelou que execuções multiagente falhadas incorreram em 5x mais faixas de coordenação e 7x mais tokens do que execuções bem-sucedidas, contradizendo a suposição de que colaboração extra sempre melhora os resultados.
- COPRA: Mostrou que etapas estendidas de busca de prova correlacionaram-se negativamente com o sucesso, sugerindo que etapas repetidas frequentemente indicam recuperação falha em vez de raciocínio útil.
- Tree-of-Thought: Demonstrou que estratégias de poda poderiam preservar recompensas finais enquanto reduziam significativamente a exploração desperdiçada, uma nuance oculta apenas pelas métricas de recompensa final.
PQ2 (Impacto das Regras de Reporte): Os autores mantiveram artefatos de benchmark fixos (por exemplo, submissões do GPT-4o ao SWE-bench, submissões do Kaggle para MLE-Bench) e aplicaram regras de reporte alternativas.
- Alterar a definição de "sucesso" ou o tratamento de patches ausentes no SWE-bench alterou a lacuna de capacidade reportada entre agentes em 2,3 pontos percentuais.
- Alterar o avaliador no $\tau$ -bench inverteu a classificação de modelos de fronteira (GPT-4o vs. Claude 3.5 Sonnet) em 16,9 pontos percentuais.
- Alterar a definição de medalha/aprovação para o MLE-Bench reduziu a taxa de aprovação de 34,2% para 13,3% (uma lacuna de 20,9 pontos).

Contribuições Principais

Diagnóstico de Falhas de Publicação: Uma auditoria estruturada de 50 repositórios e um catálogo de 37 discrepâncias de regras de reporte demonstrando que as práticas atuais ocultam falhas e obscurecem a natureza convencionada das lacunas de pontuação.
Especificação do Cartão de Rollout: Um padrão de publicação formal que preserva o registro de rollout, declara as visualizações e regras aplicadas e documenta omissões por meio de manifestos de exclusões.
Implementação de Referência e Lançamento de Dados: Uma implementação de código aberto em ERGON e o lançamento público de 21 exportações de cartões de rollout (17 exportações de publicação de rastro e 4 exportações de visualização analítica/recuperada) cobrindo uso de ferramentas, engenharia de software, segurança e busca.

Resultados

Reutilização Científica: Registros de rollout preservados permitiram a descoberta de falhas de segurança, sobrecargas de coordenação e ineficiências de busca que não eram visíveis nas pontuações reportadas originais.
Sensibilidade à Convenção: Os experimentos confirmaram que as regras de reporte não são neutras; alterá-las em evidências fixas pode alterar pontuações reportadas em até 20,9 pontos percentuais e inverter classificações de modelos.
Transparência: A estrutura do Cartão de Rollout torna a "caixa preta" da avaliação transparente, permitindo que discordâncias sejam rastreadas até escolhas específicas de reporte em vez de comportamentos de modelo ambíguos.

Significado e Alegações

O artigo alega que publicar apenas pontuações extrai apenas uma fração do valor dos experimentos com agentes. Ao tratar registros de rollout como a unidade de reprodutibilidade, a comunidade pode:

Mitigar o Problema de Registro: Permitir que novas questões científicas sejam feitas sobre dados existentes e caros sem reexecutar agentes de fronteira.
Mitigar o Problema de Reporte: Tornar as mudanças de pontuação impulsionadas por convenções inspecionáveis, permitindo que pesquisadores distingam entre o comportamento do agente e as regras usadas para registrá-lo.

Os autores são modestos quanto ao escopo, observando que os Cartões de Rollout não previnem a escolha seletiva de métricas, restrições de privacidade ou redação. Em vez disso, seu papel é tornar o registro, a regra e as omissões inspecionáveis, garantindo que discordâncias possam ser rastreadas até evidências preservadas, escolhas de reporte ou comportamento real do agente. O trabalho visa apoiar pesquisas futuras, meta-análises e comparações de regras de reporte sem exigir novos orçamentos caros de rollout de fronteira.

Rollout Cards: A Reproducibility Standard for Agent Research