Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?

Este artigo reavalia o benchmark EVMbench, demonstrando que, devido a limitações metodológicas como contaminação de dados e falta de controle de scaffolding, os agentes de IA atuais não são estáveis nem capazes de exploração completa em incidentes reais, indicando que a auditoria automatizada total ainda não é viável e que a colaboração humano-IA permanece essencial.

Chaoyuan Peng, Lei Wu, Yajin Zhou

Publicado Thu, 12 Ma
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que o mundo dos contratos inteligentes (o código que roda o dinheiro na blockchain) é como uma fortaleza digital onde bilhões de dólares estão guardados. Para proteger essa fortaleza, existem "guardas de segurança" humanos muito especializados.

Recentemente, surgiu uma notícia empolgante: "A Inteligência Artificial (IA) aprendeu a ser tão boa quanto esses guardas humanos e pode até substituí-los!". Essa notícia veio de um teste chamado EVMbench, que dizia que os robôs conseguiam encontrar falhas de segurança e até "hackear" o sistema com sucesso.

Mas, neste novo artigo, três pesquisadores (do Zhejiang University e da BlockSec) decidiram colocar esse teste na balança e dizer: "Esperem aí. A história é um pouco mais complicada."

Aqui está a explicação do que eles descobriram, usando analogias do dia a dia:

1. O Teste Original Era como um "Exame de Vestibular com Vazamento"

O teste original (EVMbench) usou perguntas de provas antigas que os robôs provavelmente já tinham visto antes de nascerem.

  • A Analogia: Imagine que você quer testar se um aluno é inteligente. Você dá a ele um teste com as mesmas perguntas que ele já estudou na internet. Ele tira nota 10! Mas será que ele realmente sabe a matéria ou apenas decorou as respostas?
  • O Problema: Os pesquisadores criaram um novo teste com 22 casos reais de hackers que aconteceram depois de os robôs terem sido treinados. Nada sobre esses casos existia quando os robôs foram "ensinados".
  • O Resultado: Quando os robôs enfrentaram esses casos novos e reais, eles falharam miseravelmente em completar o trabalho. Eles conseguiam enxergar algumas falhas, mas não conseguiam executar o ataque para roubar o dinheiro (o que é o teste final).

2. A "Ferramenta" Importa Mais que o "Cérebro"

O teste original comparava robôs de diferentes marcas, mas cada um usava a ferramenta de trabalho da sua própria marca (como um carro da Ford usando peças da Ford, e um da Toyota usando peças da Toyota).

  • A Analogia: É como testar quem é o melhor piloto de corrida, mas um piloto dirige um carro novo e o outro dirige um carro velho e quebrado. Se o piloto do carro velho ganha, será que ele é um gênio ou apenas o carro dele era melhor para aquela pista?
  • O Descoberta: Os pesquisadores mudaram as ferramentas. Eles fizeram o mesmo robô dirigir carros diferentes. Descobriram que a ferramenta (o "andaime" ou scaffold) que o robô usa para trabalhar influencia muito mais o resultado do que a inteligência do próprio robô. Às vezes, um robô "mais simples" com uma ferramenta melhor ganhava de um robô "super inteligente" com uma ferramenta ruim.

3. O Robô é Bom em "Achados", mas Péssimo em "Ação"

O teste original dizia que o maior problema era encontrar a falha. Uma vez achada, o robô conseguiria explorá-la facilmente.

  • A Analogia: Imagine um detetive que é ótimo em achar a porta trancada de um cofre (descoberta), mas quando tenta abrir a porta, ele não sabe usar a chave, não sabe quebrar o vidro e nem sabe o que fazer depois de entrar.
  • O Resultado: No mundo real, os robôs conseguiam apontar para a porta trancada em cerca de 65% dos casos. Mas, quando tentaram entrar e roubar o dinheiro? 0% de sucesso. Eles travaram. Eles não conseguiam conectar os pontos para criar um plano de ataque complexo e lucrativo.

4. A Conclusão: O Robô é um "Estagiário", não o "Chefe"

O artigo não diz que a IA é inútil. Pelo contrário, ela é muito útil, mas precisa de supervisão.

  • Para quem desenvolve apps: Você pode usar o robô como um scanner de segurança prévio. Ele vai pegar os erros óbvios (como uma porta deixada aberta ou uma fechadura enferrujada). Mas não confie 100% nele, porque ele vai deixar passar os erros mais sutis e perigosos.
  • Para as empresas de auditoria: O robô não deve substituir o auditor humano. Ele deve ser o primeiro filtro.
    • O Robô: Varre o código inteiro, rápido, achando os erros comuns e óbvios.
    • O Humano: Pega o que o robô achou, filtra os falsos alarmes e usa sua experiência e intuição para encontrar os erros complexos e específicos daquele sistema.

Resumo Final

A ideia de que "robôs vão auditar tudo sozinhos em breve" é um exagero. A IA atual é como um estagiário muito rápido e que lê muito, mas que ainda não tem a experiência de vida para resolver problemas complexos e imprevisíveis do mundo real.

A solução ideal não é "Robô vs. Humano", mas sim "Robô + Humano". O robô faz o trabalho pesado de varrer o terreno, e o humano usa sua sabedoria para garantir que a fortaleza esteja realmente segura.