Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?

Each language version is independently generated for its own context, not a direct translation.

Imagine que o mundo dos contratos inteligentes (o código que roda o dinheiro na blockchain) é como uma fortaleza digital onde bilhões de dólares estão guardados. Para proteger essa fortaleza, existem "guardas de segurança" humanos muito especializados.

Recentemente, surgiu uma notícia empolgante: "A Inteligência Artificial (IA) aprendeu a ser tão boa quanto esses guardas humanos e pode até substituí-los!". Essa notícia veio de um teste chamado EVMbench, que dizia que os robôs conseguiam encontrar falhas de segurança e até "hackear" o sistema com sucesso.

Mas, neste novo artigo, três pesquisadores (do Zhejiang University e da BlockSec) decidiram colocar esse teste na balança e dizer: "Esperem aí. A história é um pouco mais complicada."

Aqui está a explicação do que eles descobriram, usando analogias do dia a dia:

1. O Teste Original Era como um "Exame de Vestibular com Vazamento"

O teste original (EVMbench) usou perguntas de provas antigas que os robôs provavelmente já tinham visto antes de nascerem.

A Analogia: Imagine que você quer testar se um aluno é inteligente. Você dá a ele um teste com as mesmas perguntas que ele já estudou na internet. Ele tira nota 10! Mas será que ele realmente sabe a matéria ou apenas decorou as respostas?
O Problema: Os pesquisadores criaram um novo teste com 22 casos reais de hackers que aconteceram depois de os robôs terem sido treinados. Nada sobre esses casos existia quando os robôs foram "ensinados".
O Resultado: Quando os robôs enfrentaram esses casos novos e reais, eles falharam miseravelmente em completar o trabalho. Eles conseguiam enxergar algumas falhas, mas não conseguiam executar o ataque para roubar o dinheiro (o que é o teste final).

2. A "Ferramenta" Importa Mais que o "Cérebro"

O teste original comparava robôs de diferentes marcas, mas cada um usava a ferramenta de trabalho da sua própria marca (como um carro da Ford usando peças da Ford, e um da Toyota usando peças da Toyota).

A Analogia: É como testar quem é o melhor piloto de corrida, mas um piloto dirige um carro novo e o outro dirige um carro velho e quebrado. Se o piloto do carro velho ganha, será que ele é um gênio ou apenas o carro dele era melhor para aquela pista?
O Descoberta: Os pesquisadores mudaram as ferramentas. Eles fizeram o mesmo robô dirigir carros diferentes. Descobriram que a ferramenta (o "andaime" ou scaffold) que o robô usa para trabalhar influencia muito mais o resultado do que a inteligência do próprio robô. Às vezes, um robô "mais simples" com uma ferramenta melhor ganhava de um robô "super inteligente" com uma ferramenta ruim.

3. O Robô é Bom em "Achados", mas Péssimo em "Ação"

O teste original dizia que o maior problema era encontrar a falha. Uma vez achada, o robô conseguiria explorá-la facilmente.

A Analogia: Imagine um detetive que é ótimo em achar a porta trancada de um cofre (descoberta), mas quando tenta abrir a porta, ele não sabe usar a chave, não sabe quebrar o vidro e nem sabe o que fazer depois de entrar.
O Resultado: No mundo real, os robôs conseguiam apontar para a porta trancada em cerca de 65% dos casos. Mas, quando tentaram entrar e roubar o dinheiro? 0% de sucesso. Eles travaram. Eles não conseguiam conectar os pontos para criar um plano de ataque complexo e lucrativo.

4. A Conclusão: O Robô é um "Estagiário", não o "Chefe"

O artigo não diz que a IA é inútil. Pelo contrário, ela é muito útil, mas precisa de supervisão.

Para quem desenvolve apps: Você pode usar o robô como um scanner de segurança prévio. Ele vai pegar os erros óbvios (como uma porta deixada aberta ou uma fechadura enferrujada). Mas não confie 100% nele, porque ele vai deixar passar os erros mais sutis e perigosos.
Para as empresas de auditoria: O robô não deve substituir o auditor humano. Ele deve ser o primeiro filtro.
- O Robô: Varre o código inteiro, rápido, achando os erros comuns e óbvios.
- O Humano: Pega o que o robô achou, filtra os falsos alarmes e usa sua experiência e intuição para encontrar os erros complexos e específicos daquele sistema.

Resumo Final

A ideia de que "robôs vão auditar tudo sozinhos em breve" é um exagero. A IA atual é como um estagiário muito rápido e que lê muito, mas que ainda não tem a experiência de vida para resolver problemas complexos e imprevisíveis do mundo real.

A solução ideal não é "Robô vs. Humano", mas sim "Robô + Humano". O robô faz o trabalho pesado de varrer o terreno, e o humano usa sua sabedoria para garantir que a fortaleza esteja realmente segura.

Métrica	EVMbench (Benchmark Curado)	Estudo (Dataset de Incidentes Reais)
Melhor Taxa de Detecção	45,6%	65,0% (Claude Opus 4.6)
Melhor Taxa de Exploração	72,2% (em subconjunto)	0% (0/110 tentativas)
Estabilidade de Ranking	Alta (conclusão do EVMbench)	Baixa (mudanças drásticas entre datasets e scaffolds)
Impacto do Scaffold	Ignorado/Confundido	Até +5 pontos percentuais de diferença

Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?

1. O Teste Original Era como um "Exame de Vestibular com Vazamento"

2. A "Ferramenta" Importa Mais que o "Cérebro"

3. O Robô é Bom em "Achados", mas Péssimo em "Ação"

4. A Conclusão: O Robô é um "Estagiário", não o "Chefe"

Resumo Final

1. Problema e Contexto

2. Metodologia

3. Principais Contribuições e Descobertas

A. Instabilidade dos Resultados

B. O Gargalo Real é a Exploração, não a Descoberta

C. Limitações de Generalização

4. Resultados Quantitativos Chave

5. Significado e Implicações para a Indústria

Conclusão

Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?

1. O Teste Original Era como um "Exame de Vestibular com Vazamento"

2. A "Ferramenta" Importa Mais que o "Cérebro"

3. O Robô é Bom em "Achados", mas Péssimo em "Ação"

4. A Conclusão: O Robô é um "Estagiário", não o "Chefe"

Resumo Final

1. Problema e Contexto

2. Metodologia

3. Principais Contribuições e Descobertas

A. Instabilidade dos Resultados

B. O Gargalo Real é a Exploração, não a Descoberta

C. Limitações de Generalização

4. Resultados Quantitativos Chave

5. Significado e Implicações para a Indústria

Conclusão

Mais como este

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities