Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um robô super inteligente (uma Inteligência Artificial) que promete fazer suas compras, transferir dinheiro e investir em criptomoedas apenas porque você pediu em linguagem natural, como se estivesse conversando com um amigo.

O problema? Se esse robô errar um único número, um endereço ou uma vírgula, você pode perder todo o seu dinheiro de forma irreversível. No mundo das criptomoedas, não existe "desfazer" ou "atendimento ao cliente" para recuperar fundos enviados para o lugar errado.

É aqui que entra o EVM-QuestBench. Vamos explicar o que é, como funciona e por que é importante, usando analogias do dia a dia.

1. O Que é o EVM-QuestBench? (O "Simulador de Piloto")

Pense no EVM-QuestBench como um simulador de voo extremamente rigoroso para robôs que lidam com dinheiro digital.

Antes, os testes de inteligência artificial eram como pedir para o robô escrever um poema sobre um avião. O robô podia escrever algo bonito, com palavras que pareciam certas (como "asas", "céu", "velocidade"), mas se você tentasse usar esse poema para pilotar um avião real, ele cairia.

O EVM-QuestBench muda as regras:

Não basta escrever bem: O robô não ganha pontos por escrever código que parece certo.
Tem que funcionar de verdade: O robô precisa escrever o código, e o sistema executa esse código em um ambiente de teste (uma "ilha" segura que copia a blockchain real) para ver se o dinheiro realmente foi transferido, se a troca de moedas aconteceu e se o saldo mudou corretamente.

2. Como o Teste Funciona? (A "Cozinha de Chefes")

O teste é dividido em dois tipos de desafios, como se fossem dois níveis de um jogo de culinária:

Nível 1: Tarefas Atômicas (O "Prato Único")

Imagine pedir ao chef: "Faça um sanduíche de queijo".

O robô precisa pegar o pão, o queijo e montar.
Se ele esquecer o queijo ou usar o pão errado, o prato falha.
O que testa: Precisão em uma única ação. O robô consegue fazer uma coisa simples sem errar?

Nível 2: Tarefas Compostas (O "Banquete Completo")

Agora, o pedido é mais complexo: "Faça um jantar de 3 etapas: primeiro pique as cebolas, depois as frite, e por fim adicione o molho".

Aqui, o robô precisa planejar. Ele não pode fritar a cebola antes de picar.
Ele precisa lembrar que o molho só pode ser adicionado se a cebola já estiver pronta.
O que testa: Capacidade de seguir uma sequência lógica, lembrar de passos anteriores e não se perder no meio do caminho.

O Grande Segredo do Teste:
O sistema não usa pedidos fixos. A cada vez que o robô tenta, os números mudam!

Em vez de "transfira 10 dólares", o sistema pode pedir "transfira 13,47 dólares" ou "transfira 0,005 moedas".
Isso impede que o robô apenas "decore" a resposta. Ele precisa realmente entender a matemática e a lógica.

3. O Que Eles Descobriram? (O "Relatório de Pilotos")

Os pesquisadores testaram 20 robôs diferentes (modelos de IA) nesse simulador. Os resultados foram surpreendentes e revelaram dois tipos de "personalidade" nos robôs:

Os "Atiradores de Elite" (Precisão, mas sem visão de conjunto):
Alguns robôs são excelentes em fazer tarefas simples (Nível 1). Eles acertam o sanduíche quase sempre. Mas, quando você pede o banquete completo (Nível 2), eles se perdem, esquecem o passo 2 e tentam fazer tudo de uma vez, falhando miseravelmente.
- Analogia: É como um jogador de tênis que tem um saque perfeito, mas não sabe jogar uma partida inteira porque não consegue pensar em estratégia.
Os "Estrategistas" (Planejamento, mas com erros de detalhe):
Outros robôs são ótimos em planejar o banquete. Eles sabem a ordem certa das coisas. Porém, às vezes, erram um detalhe pequeno (como usar a quantidade errada de sal) e estragam o prato.
- Analogia: Um chef que sabe o cardápio inteiro de cabeça, mas às vezes coloca o sal no lugar errado.

A Conclusão Chocante:
Muitos robôs que são considerados "os melhores" em escrever código geral, falharam feio quando tiveram que lidar com dinheiro real em etapas complexas. Isso mostra que saber programar não é o mesmo que saber gerenciar transações financeiras seguras.

4. Por Que Isso Importa Para Você?

Hoje, muitas pessoas querem usar IA para gerenciar seus investimentos em criptomoedas. Se confiarmos cegamente em um robô que não foi testado nesse "simulador de voo", podemos perder dinheiro.

O EVM-QuestBench é como um selo de qualidade. Ele nos diz:

"Este robô é bom apenas para escrever textos."
"Este robô é bom para tarefas simples."
"Este robô é seguro para gerenciar seu portfólio complexo."

Resumo em Uma Frase

O EVM-QuestBench é um campo de provas realista que força as inteligências artificiais a não apenas "falar bonito" sobre dinheiro, mas a fazer o trabalho corretamente, sem perder uma única moeda, seja em uma tarefa simples ou em uma sequência complexa de investimentos.

É a diferença entre um robô que diz que sabe cozinhar e um robô que realmente entrega um jantar que não te deixa doente.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: EVM-QuestBench

1. Problema e Motivação

Os Grandes Modelos de Linguagem (LLMs) estão sendo cada vez mais utilizados para geração de código e automação de transações em blockchain. No entanto, o cenário de transações on-chain apresenta riscos financeiros críticos: um erro mínimo (como um endereço incorreto, unidade de medida errada ou falha em pré-requisitos de protocolo) pode resultar em perdas irreversíveis para os usuários.

As avaliações existentes de geração de código sofrem de limitações significativas neste domínio:

Métricas Superficiais: Muitas dependem de sobreposição léxica (ex: BLEU, CodeBLEU), que recompensam saídas que parecem semelhantes à referência, mas falham em execução ou não atendem a restrições funcionais.
Falta de Contexto Específico: Benchmarks gerais (como HumanEval) ou de engenharia de software (SWE-bench) não capturam a natureza de estado mutável compartilhado, a irreversibilidade das ações e as restrições estritas de protocolos de blockchain.
Deficiência em Segurança e Precisão: Benchmarks específicos de blockchain (como o Solana Bench) muitas vezes não dissecam a precisão de transações únicas versus a conclusão de fluxos de trabalho multi-etapa sob uma interface unificada de execução e validação.

O EVM-QuestBench foi criado para preencher essa lacuna, oferecendo um benchmark fundamentado na execução (execution-grounded) para a geração de scripts de transação em linguagem natural em cadeias compatíveis com EVM (Ethereum Virtual Machine).

2. Metodologia

Arquitetura e Design

O benchmark é modular e utiliza uma avaliação dinâmica. A arquitetura consiste em várias camadas:

Definição de Tarefas: As tarefas são especificadas declarativamente em JSON, contendo templates de linguagem natural, definições de parâmetros e configurações de validação.
Instanciação Dinâmica: Durante a avaliação, o sistema seleciona um template e amostra parâmetros numéricos (valores, endereços, quantidades) dentro de intervalos predefinidos. Isso impede a memorização de padrões fixos e testa a robustez do raciocínio numérico.
Interação com LLM: O modelo recebe a instrução e gera um módulo TypeScript que compõe chamadas a contratos implantados.
Ambiente de Execução: Um "runner" executa os scripts gerados em uma fork da cadeia principal (BSC - Binance Smart Chain) usando o Anvil. O ambiente utiliza isolamento de snapshot, garantindo que cada tarefa comece em um estado idêntico, prevenindo interferências entre tarefas.
Validação: Validadores personalizados verificam os recibos de transação e as restrições de estado pós-execução, comparando os resultados com os parâmetros dinâmicos amostrados.

Estrutura das Tarefas

O benchmark contém 107 tarefas divididas em dois conjuntos (splits):

Tarefas Atômicas (62): Testam a precisão de uma única ação on-chain (ex: transferências, aprovações, swaps simples). O foco é na construção correta de calldata, conversão de unidades e precisão de estado.
Tarefas Compostas (45): Testam fluxos de trabalho multi-etapa que exigem planejamento, tratamento de pré-requisitos (ex: aprovar antes de trocar) e propagação consistente de parâmetros.
- Decaimento de Eficiência de Passo: As tarefas compostas aplicam uma penalidade baseada na eficiência. Se o modelo usa mais passos do que o ótimo ( $K_{opt}$ ), a pontuação decai proporcionalmente à razão entre passos ótimos e reais.

Protocolo de Avaliação

Execução: Os modelos geram módulos TypeScript que retornam payloads de transação não assinados. O runner assina e executa na fork.
Planejamento: Para tarefas compostas, utiliza-se um protocolo de interação multi-turno onde o modelo primeiro planeja a sequência de sub-tarefas e depois executa o código.
Métricas: A pontuação é baseada em validadores binários ponderados (sucesso da transação, correção de endereço, assinatura de função, verificação de mudança de estado).
Repetição: Cada um dos 20 modelos avaliados foi testado em 5 rodadas independentes com amostragem de parâmetros diferente, permitindo análise estatística (intervalos de confiança).

3. Principais Contribuições

EVM-QuestBench: O primeiro benchmark fundamentado na execução para geração de scripts de transação em linguagem natural em cadeias EVM, com divisões claras entre tarefas atômicas e compostas.
Paradigma Modular de Desenvolvimento: Reduz drasticamente o custo de desenvolvimento de novos benchmarks. Criar uma tarefa atômica requer apenas a definição do problema e um validador; criar uma composta requer apenas atualizar um arquivo JSON.
Protocolo de Execução Robusto: Implementação com isolamento de snapshot, interface de runner fixa e pontuação baseada em validadores de estado pós-execução, eliminando a dependência de correspondência de código de referência.
Análise Estatística Rigorosa: Avaliação de 20 modelos com 5 rodadas cada, fornecendo médias, desvios padrão e intervalos de confiança, revelando assimetrias de capacidade que avaliações de única rodada poderiam ocultar.

4. Resultados e Análise

O estudo avaliou 20 modelos (incluindo Claude, GPT-5, Gemini, DeepSeek, Qwen, entre outros).

Desempenho Geral: Os melhores modelos (ex: Claude-Sonnet-4.5) alcançaram médias totais acima de 7.700 pontos (de um máximo de 10.700), com baixa variância entre rodadas.
Assimetria de Capacidade (Descoberta Chave): Existe uma desconexão persistente entre a precisão de ações únicas e a conclusão de fluxos de trabalho complexos:
- Modelos Orientados a Fluxo: Alguns modelos (ex: DeepSeek-V3.2, Gemini-2.5-Flash) obtiveram pontuações compostas altas mesmo com pontuações atômicas moderadas, indicando forte capacidade de sequenciamento e planejamento.
- Modelos Orientados a Precisão: Outros (ex: Claude-Haiku-4.5) tiveram excelente desempenho atômico, mas falharam em tarefas compostas devido à dificuldade em rastrear dependências multi-etapa.
- Falhas em Modelos de Código Especializado: Modelos focados em código (ex: Qwen3-Coder em várias versões) obtiveram pontuações próximas de zero em tarefas compostas devido a erros de interface (importações faltando, estrutura de módulo incorreta) em contextos multi-turno, apesar de funcionarem em tarefas atômicas.
Eficiência de Passos: Modelos de topo completaram tarefas compostas com eficiência de passos (Eff%) acima de 80-88%, enquanto modelos inferiores frequentemente excederam o número ótimo de passos, resultando em penalidades de pontuação.

5. Significado e Impacto

O EVM-QuestBench estabelece um novo padrão para a avaliação de LLMs em automação de blockchain:

Segurança Prática: Ao focar na execução real em uma fork da mainnet, o benchmark identifica falhas que métricas estáticas ignorariam, sendo crucial para aplicações financeiras reais.
Diagnóstico de Capacidades: A separação entre scores atômicos e compostos permite diagnosticar se um modelo falha em entender instruções simples ou em planejar sequências complexas, guiando o desenvolvimento futuro de modelos.
Portabilidade: A arquitetura modular demonstrou ser portátil para outras cadeias (o artigo menciona a criação de um benchmark Solana usando a mesma arquitetura).
Direções Futuras: O trabalho abre caminho para a expansão de cobertura de tarefas, inclusão de verificações de segurança mais ricas (intenção de transação e efeitos colaterais) e avaliação da capacidade dos LLMs de gerar definições de tarefas em si.

Em resumo, o EVM-QuestBench demonstra que, embora os LLMs tenham progredido na geração de código, ainda há um "abismo" significativo entre a precisão de ações isoladas e a confiabilidade na execução de fluxos de trabalho complexos e interdependentes em ambientes de blockchain.

EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation