EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous demandez à un robot très intelligent de gérer votre argent dans une banque numérique (la blockchain). Si ce robot fait la moindre erreur, comme envoyer de l'argent au mauvais endroit ou utiliser la mauvaise devise, votre argent peut disparaître à jamais. C'est effrayant, non ?

C'est exactement le problème que l'équipe derrière EVM-QuestBench a voulu résoudre. Ils ont créé un "terrain de jeu" spécial pour tester si les intelligences artificielles (les grands modèles de langage) sont vraiment prêtes à gérer ces transactions financières complexes sans faire de bêtises.

Voici une explication simple de leur travail, avec quelques images pour mieux comprendre :

1. Le Problème : Les Tests de "Vocabulaire" ne Suffisent pas

Avant, pour tester une IA, on lui donnait un code et on vérifiait si ses mots ressemblaient à ceux d'un humain expert. C'est comme corriger une rédaction scolaire en comptant le nombre de fautes d'orthographe.

Le souci : L'IA peut écrire une phrase qui semble parfaite, mais qui, si on l'exécute, ferait exploser la banque !
La solution de l'équipe : Au lieu de juste lire le code, ils le font tourner. C'est comme si, au lieu de lire une recette de cuisine, on obligeait le robot à cuisiner le plat et à le goûter pour voir s'il est bon.

2. La Solution : EVM-QuestBench (Le Grand Parc d'Attractions)

Ils ont construit un simulateur ultra-réaliste (une copie de la blockchain BNB) où l'IA doit accomplir des missions. Imaginez un jeu vidéo où l'IA est le joueur.

Le jeu est divisé en deux types de niveaux :

Les Missions "Atomiques" (Les exercices de base) :
- L'analogie : C'est comme demander à l'IA de "Envoyer 10 euros à Paul".
- Le défi : L'IA doit juste faire une seule action correctement. Si elle se trompe d'adresse ou de montant, c'est perdu.
- Dans le test : Il y a 62 de ces petits exercices.
Les Missions "Composites" (Les quêtes complexes) :
- L'analogie : C'est comme demander : "Va acheter des billets de concert, réserve un hôtel, et paie le taxi pour y aller".
- Le défi : L'IA doit planifier plusieurs étapes dans le bon ordre. Elle doit d'abord approuver le paiement, puis acheter, puis réserver. Si elle oublie une étape ou fait les choses dans le désordre, tout échoue.
- Dans le test : Il y a 45 de ces grandes quêtes.

3. La Magie : Les Paramètres Qui Changent

Pour éviter que l'IA ne triche en mémorisant les réponses, le test utilise un système de générateur de nombres aléatoires.

L'image : Imaginez que le testeur change le montant à chaque fois. Parfois, il demande "Envoie 0,12345 ETH", parfois "Envoie 99,99 ETH".
Pourquoi ? Cela force l'IA à vraiment comprendre les mathématiques et la logique, au lieu de simplement répéter une réponse apprise par cœur. C'est comme passer d'un examen avec des questions fixes à un examen où les chiffres changent à chaque fois que vous posez la question.

4. Les Résultats : Qui est le Meilleur ?

Ils ont testé 20 IA différentes. Voici ce qu'ils ont découvert, et c'est très intéressant :

Le paradoxe de l'expert : Certaines IA sont excellentes pour les petites tâches simples (elles sont très précises comme un chirurgien), mais elles échouent lamentablement quand il faut enchaîner plusieurs actions (elles perdent le fil comme un enfant distrait).
Le paradoxe du stratège : D'autres IA sont un peu moins précises sur les détails, mais elles sont très bonnes pour planifier de grandes séquences d'actions.
Le vainqueur : Le modèle Claude-Sonnet-4.5 a été le meilleur, réussissant à la fois les petites tâches et les grandes quêtes avec une grande régularité.

5. Pourquoi c'est Important ?

Aujourd'hui, les gens veulent utiliser l'IA pour gérer leurs investissements cryptos ou automatiser des tâches bancaires. Ce test (EVM-QuestBench) est comme un permis de conduire pour ces IA.

Avant de laisser une IA gérer votre argent, il faut s'assurer qu'elle ne va pas faire une erreur irréversible.
Ce benchmark montre que même les meilleures IA actuelles ont encore des faiblesses, surtout quand il faut enchaîner plusieurs étapes complexes.

En résumé :
Les chercheurs ont créé un "circuit d'entraînement" où l'IA doit conduire une voiture dans des conditions réelles, avec des obstacles qui changent à chaque fois. Ils ont vu que certaines voitures sont très stables sur les lignes droites (tâches simples) mais paniquent dans les virages complexes (tâches multiples). Ce travail nous aide à comprendre quelles IA sont prêtes à gérer nos finances et lesquelles ont encore besoin de beaucoup d'entraînement.

EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation

1. Le Problème : Les Tests de "Vocabulaire" ne Suffisent pas

2. La Solution : EVM-QuestBench (Le Grand Parc d'Attractions)

3. La Magie : Les Paramètres Qui Changent

4. Les Résultats : Qui est le Meilleur ?

5. Pourquoi c'est Important ?

Titre

1. Problématique

2. Méthodologie

Architecture et Conception

Composition des Tâches (107 tâches au total)

Protocole d'Évaluation

3. Contributions Clés

4. Résultats et Analyse

5. Signification et Impact

EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation

1. Le Problème : Les Tests de "Vocabulaire" ne Suffisent pas

2. La Solution : EVM-QuestBench (Le Grand Parc d'Attractions)

3. La Magie : Les Paramètres Qui Changent

4. Les Résultats : Qui est le Meilleur ?

5. Pourquoi c'est Important ?

Titre

1. Problématique

2. Méthodologie

Architecture et Conception

Composition des Tâches (107 tâches au total)

Protocole d'Évaluation

3. Contributions Clés

4. Résultats et Analyse

5. Signification et Impact

Articles similaires

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance