Supporting Artifact Evaluation with LLMs: A Study with Published Security Research Papers

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um chef de cozinha famoso e, todo ano, recebe milhares de receitas de novos pratos de cozinheiros do mundo todo para um concurso. O problema? Para saber se o prato é realmente bom, você precisa cozinhar ele mesmo seguindo a receita. Se a receita estiver confusa, faltar ingredientes ou o prato não ficar pronto, você perde horas tentando descobrir o que deu errado.

No mundo da ciência de segurança cibernética (que é como a "cozinha" dos hackers e defensores de computadores), acontece exatamente a mesma coisa. Pesquisadores enviam seus "pratos" (códigos, dados e artigos) para conferências. Os revisores (os "chefes") precisam tentar reproduzir esses resultados para garantir que a pesquisa é real e não apenas uma ilusão.

Mas aqui está o problema: o número de receitas está explodindo, e os chefes estão ficando exaustos. Eles não têm tempo para cozinhar tudo manualmente.

É aí que entra este artigo, que apresenta uma nova assistente de cozinha feita de Inteligência Artificial (IA) para ajudar os revisores. Vamos chamar essa assistente de "Robô-Chef".

O Robô-Chef tem três superpoderes principais para ajudar a organizar essa bagunça:

1. O "Detetive de Legibilidade" (RATE)

Antes de tentar cozinhar, o Robô-Chef lê a receita (o artigo e as instruções) e diz: "Ei, essa receita parece impossível de seguir. Falta o passo 3, o ingrediente X não existe e a instrução está escrita em um idioma estranho."

Como funciona: Ele usa a "intuição" da IA para entender o texto. Se a receita for muito confusa, ele avisa o revisor: "Não perca tempo tentando cozinhar isso, é provável que não funcione."
O resultado: Ele consegue identificar com 95% de certeza quando uma receita é "lixo" ou "incompleta", economizando muito tempo.

2. O "Cozinheiro Robô" (PREPARE)

Se a receita parece boa, o Robô-Chef tenta cozinhar o prato sozinho em uma cozinha segura e isolada (um ambiente virtual chamado "sandbox").

Como funciona: Ele baixa os ingredientes, instala os utensílios necessários e tenta executar o código. Se algo der errado (ex: "falta a farinha"), ele tenta consertar sozinho. Se não conseguir, ele deixa um relatório detalhado dizendo: "Tentei cozinhar, mas falhei aqui. Aqui está o erro exato."
O resultado: Ele consegue preparar e rodar cerca de 28% dos códigos que, na verdade, funcionam. Isso significa que o revisor humano não precisa perder horas instalando programas; ele só precisa verificar o resultado final.

3. O "Crítico de Metodologia" (ASSESS)

Às vezes, o prato fica pronto, mas o método usado para criá-lo é estranho. O Robô-Chef lê o artigo e procura por erros de lógica comuns na pesquisa.

Como funciona: Ele sabe que muitos pesquisadores cometem erros como "testar o prato apenas na própria cozinha" (o que não funciona na rua) ou "usar ingredientes desbalanceados". Ele aponta esses defeitos com mais de 90% de precisão.
O resultado: Ele ajuda o revisor a ver se a pesquisa é cientificamente sólida, não apenas se o código roda.

Por que isso é importante?

Hoje, o processo de revisão é lento e cansativo. Muitos pesquisadores desistem de enviar seus códigos porque sabem que ninguém vai conseguir rodá-los.

Com esse Kit de IA, a conferência pode:

Filtrar o lixo: Descartar rapidamente as pesquisas que não têm chance de ser reproduzidas.
Acelerar o bom: Preparar o ambiente para as pesquisas que funcionam, deixando o revisor humano focar apenas na análise final.
Melhorar a qualidade: Incentivar os pesquisadores a escreverem receitas melhores, sabendo que um "Robô-Chef" vai tentar cozinhar o prato antes mesmo de chegar ao humano.

Em resumo:
A ciência de segurança está crescendo rápido demais para ser feita apenas com "mãos humanas". Este estudo mostra que podemos usar a Inteligência Artificial como um parceiro confiável para fazer a parte chata e repetitiva (ler instruções, instalar programas, checar erros), permitindo que os especialistas humanos se concentrem no que realmente importa: julgar a qualidade e a segurança das descobertas.

É como ter um assistente que faz a limpeza e a preparação da cozinha, para que o Chef possa apenas provar o prato e dar a nota final!

Supporting Artifact Evaluation with LLMs: A Study with Published Security Research Papers

1. O "Detetive de Legibilidade" (RATE)

2. O "Cozinheiro Robô" (PREPARE)

3. O "Crítico de Metodologia" (ASSESS)

Por que isso é importante?

1. Problema e Motivação

2. Metodologia: Pipeline Orientado por LLMs

A. RATE (Classificação de Reprodutibilidade Baseada em Texto)

B. PREPARE (Preparação Autônoma de Ambiente)

C. ASSESS (Avaliação de Falhas Metodológicas)

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Impacto

Supporting Artifact Evaluation with LLMs: A Study with Published Security Research Papers

1. O "Detetive de Legibilidade" (RATE)

2. O "Cozinheiro Robô" (PREPARE)

3. O "Crítico de Metodologia" (ASSESS)

Por que isso é importante?

1. Problema e Motivação

2. Metodologia: Pipeline Orientado por LLMs

A. RATE (Classificação de Reprodutibilidade Baseada em Texto)

B. PREPARE (Preparação Autônoma de Ambiente)

C. ASSESS (Avaliação de Falhas Metodológicas)

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance