EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation

O artigo apresenta o EVM-QuestBench, um novo benchmark fundamentado na execução para avaliar a geração de scripts de transação em linguagem natural em cadeias compatíveis com EVM, utilizando validação dinâmica para garantir precisão e segurança e revelando lacunas significativas de desempenho entre modelos de linguagem em tarefas complexas.

Pei Yang, Wanyi Chen, Ke Wang, Lynn Ai, Eric Yang, Tianyu Shi

Publicado Wed, 11 Ma
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um robô super inteligente (uma Inteligência Artificial) que promete fazer suas compras, transferir dinheiro e investir em criptomoedas apenas porque você pediu em linguagem natural, como se estivesse conversando com um amigo.

O problema? Se esse robô errar um único número, um endereço ou uma vírgula, você pode perder todo o seu dinheiro de forma irreversível. No mundo das criptomoedas, não existe "desfazer" ou "atendimento ao cliente" para recuperar fundos enviados para o lugar errado.

É aqui que entra o EVM-QuestBench. Vamos explicar o que é, como funciona e por que é importante, usando analogias do dia a dia.

1. O Que é o EVM-QuestBench? (O "Simulador de Piloto")

Pense no EVM-QuestBench como um simulador de voo extremamente rigoroso para robôs que lidam com dinheiro digital.

Antes, os testes de inteligência artificial eram como pedir para o robô escrever um poema sobre um avião. O robô podia escrever algo bonito, com palavras que pareciam certas (como "asas", "céu", "velocidade"), mas se você tentasse usar esse poema para pilotar um avião real, ele cairia.

O EVM-QuestBench muda as regras:

  • Não basta escrever bem: O robô não ganha pontos por escrever código que parece certo.
  • Tem que funcionar de verdade: O robô precisa escrever o código, e o sistema executa esse código em um ambiente de teste (uma "ilha" segura que copia a blockchain real) para ver se o dinheiro realmente foi transferido, se a troca de moedas aconteceu e se o saldo mudou corretamente.

2. Como o Teste Funciona? (A "Cozinha de Chefes")

O teste é dividido em dois tipos de desafios, como se fossem dois níveis de um jogo de culinária:

Nível 1: Tarefas Atômicas (O "Prato Único")

Imagine pedir ao chef: "Faça um sanduíche de queijo".

  • O robô precisa pegar o pão, o queijo e montar.
  • Se ele esquecer o queijo ou usar o pão errado, o prato falha.
  • O que testa: Precisão em uma única ação. O robô consegue fazer uma coisa simples sem errar?

Nível 2: Tarefas Compostas (O "Banquete Completo")

Agora, o pedido é mais complexo: "Faça um jantar de 3 etapas: primeiro pique as cebolas, depois as frite, e por fim adicione o molho".

  • Aqui, o robô precisa planejar. Ele não pode fritar a cebola antes de picar.
  • Ele precisa lembrar que o molho só pode ser adicionado se a cebola já estiver pronta.
  • O que testa: Capacidade de seguir uma sequência lógica, lembrar de passos anteriores e não se perder no meio do caminho.

O Grande Segredo do Teste:
O sistema não usa pedidos fixos. A cada vez que o robô tenta, os números mudam!

  • Em vez de "transfira 10 dólares", o sistema pode pedir "transfira 13,47 dólares" ou "transfira 0,005 moedas".
  • Isso impede que o robô apenas "decore" a resposta. Ele precisa realmente entender a matemática e a lógica.

3. O Que Eles Descobriram? (O "Relatório de Pilotos")

Os pesquisadores testaram 20 robôs diferentes (modelos de IA) nesse simulador. Os resultados foram surpreendentes e revelaram dois tipos de "personalidade" nos robôs:

  1. Os "Atiradores de Elite" (Precisão, mas sem visão de conjunto):
    Alguns robôs são excelentes em fazer tarefas simples (Nível 1). Eles acertam o sanduíche quase sempre. Mas, quando você pede o banquete completo (Nível 2), eles se perdem, esquecem o passo 2 e tentam fazer tudo de uma vez, falhando miseravelmente.

    • Analogia: É como um jogador de tênis que tem um saque perfeito, mas não sabe jogar uma partida inteira porque não consegue pensar em estratégia.
  2. Os "Estrategistas" (Planejamento, mas com erros de detalhe):
    Outros robôs são ótimos em planejar o banquete. Eles sabem a ordem certa das coisas. Porém, às vezes, erram um detalhe pequeno (como usar a quantidade errada de sal) e estragam o prato.

    • Analogia: Um chef que sabe o cardápio inteiro de cabeça, mas às vezes coloca o sal no lugar errado.

A Conclusão Chocante:
Muitos robôs que são considerados "os melhores" em escrever código geral, falharam feio quando tiveram que lidar com dinheiro real em etapas complexas. Isso mostra que saber programar não é o mesmo que saber gerenciar transações financeiras seguras.

4. Por Que Isso Importa Para Você?

Hoje, muitas pessoas querem usar IA para gerenciar seus investimentos em criptomoedas. Se confiarmos cegamente em um robô que não foi testado nesse "simulador de voo", podemos perder dinheiro.

O EVM-QuestBench é como um selo de qualidade. Ele nos diz:

  • "Este robô é bom apenas para escrever textos."
  • "Este robô é bom para tarefas simples."
  • "Este robô é seguro para gerenciar seu portfólio complexo."

Resumo em Uma Frase

O EVM-QuestBench é um campo de provas realista que força as inteligências artificiais a não apenas "falar bonito" sobre dinheiro, mas a fazer o trabalho corretamente, sem perder uma única moeda, seja em uma tarefa simples ou em uma sequência complexa de investimentos.

É a diferença entre um robô que diz que sabe cozinhar e um robô que realmente entrega um jantar que não te deixa doente.