MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous parlez à un assistant intelligent. Jusqu'à présent, si vous lui demandiez de vous aider à planifier un voyage ou à comprendre la physique, il vous répondait par de longs textes, des listes ou des explications écrites. C'est comme si un architecte vous décrivait une maison en détail, mais ne vous montrait jamais les plans ni ne vous laissait visiter les pièces.

Le papier que nous allons explorer, MINIAPPBENCH, propose un changement radical : au lieu de simples réponses textuelles, l'IA doit désormais construire de mini-applications interactives (qu'ils appellent "MINIAPPS") directement dans votre navigateur.

Voici une explication simple de ce travail, avec des images pour mieux comprendre.

1. Le Problème : L'IA est trop "théoricienne"

Aujourd'hui, les intelligences artificielles sont excellentes pour écrire du code ou donner des conseils. Mais si vous lui demandez : "Montrez-moi comment fonctionne la gravité avec une pomme qui tombe", elle va probablement vous écrire un long paragraphe sur Isaac Newton.

C'est utile, mais ce n'est pas suffisant. L'IA ne vérifie pas si elle a vraiment compris les lois de la physique. Elle pourrait écrire un texte parfait sur la gravité, mais si on lui demandait de créer une simulation où la pomme flotte vers le ciel par erreur, elle ne le saurait pas.

L'analogie : C'est comme un chef cuisinier qui vous donne une recette écrite pour faire un gâteau, mais qui n'a jamais vraiment goûté le gâteau ni vérifié si le four fonctionne. Il sait la théorie, mais pas la pratique.

2. La Solution : L'IA devient un "Architecte Constructeur"

Les auteurs de ce papier disent : "Arrêtons de demander des textes. Demandons à l'IA de construire un petit jouet interactif."

Si vous demandez "Montrez-moi la gravité", l'IA doit maintenant générer une petite page web où vous pouvez :

Lâcher une pomme.
Voir tomber la pomme (et respecter les lois de la physique !).
Changer le poids de la pomme et voir la vitesse changer.

C'est ce qu'ils appellent un MINIAPP. C'est une réponse vivante, pas une réponse morte.

3. Le Défi : Comment noter une IA qui invente ?

C'est là que ça devient compliqué. Si vous demandez à un humain de construire une maison, il y a un plan idéal. Mais si vous demandez à une IA de créer un jeu de cartes ou une simulation de météo, il existe des milliers de façons différentes de le faire correctement.

Comment savoir si l'IA a bien fait son travail sans avoir une seule "bonne réponse" à comparer ?

L'innovation clé : Le Juge Robot (MINIAPPEVAL)
Les chercheurs ont créé un système d'évaluation spécial, un peu comme un inspecteur de sécurité robotique.

Au lieu de comparer le code de l'IA à un modèle parfait (ce qui est impossible car il y a trop de modèles), ce robot joue avec l'application.
Il clique partout, il essaie de casser les choses, il vérifie si les règles du monde réel sont respectées (par exemple : "Si je lance la pomme, tombe-t-elle bien ?").
Il vérifie trois choses :
1. L'Intention : Est-ce que ça répond à la demande ?
2. Le Statique : Est-ce que le code est propre et bien rangé ?
3. Le Dynamique : Est-ce que ça fonctionne quand on interagit avec ?

L'analogie : Imaginez un inspecteur de qualité dans une usine de jouets. Il ne regarde pas juste si le jouet est beau (statique). Il le secoue, il appuie sur les boutons, il le laisse tomber pour voir s'il casse. S'il ne casse pas et que le jouet fait le bruit attendu, alors c'est un bon jouet.

4. Le Résultat : L'IA a encore du travail à faire

Les chercheurs ont testé les meilleures IA du monde (comme GPT-5, Claude, Gemini, etc.) avec leur nouveau banc d'essai (MINIAPPBENCH).

Le verdict est sans appel : Les IA sont encore très mauvaises pour construire ces mini-applications.

Beaucoup d'entre elles réussissent à écrire du code qui semble correct, mais qui échoue dès qu'on essaie de l'utiliser.
Souvent, elles oublient les règles du monde réel (par exemple, elles font tomber la pomme à l'envers ou ignorent le fait qu'une semaine a 7 jours).
Seules quelques-unes des plus puissantes réussissent à créer des applications fiables, et même elles échouent souvent sur des tâches complexes.

En résumé

Ce papier est un appel à l'action pour l'avenir de l'IA. Il dit :

"Ne nous contentons plus de conversations textuelles. L'avenir, c'est que l'IA construise des outils vivants et interactifs pour nous aider. Mais pour y arriver, nous avons besoin de nouveaux tests (comme MINIAPPBENCH) et de nouveaux juges (comme MINIAPPEVAL) pour vérifier qu'elles ne font pas n'importe quoi."

C'est comme passer de l'époque où l'IA était un livre de recettes à l'époque où elle doit devenir un chef cuisinier capable de préparer le plat devant vous, en s'assurant que tout est bon à manger. Pour l'instant, le chef est encore en apprentissage, mais le nouveau test permet enfin de voir s'il sait vraiment cuisiner.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

L'évolution rapide des Grands Modèles de Langage (LLM) dans la génération de code a transformé l'interaction humain-IA. Traditionnellement, les réponses se limitaient à du texte statique. Cependant, une nouvelle tendance émerge : la génération de MINIAPPS, des applications HTML interactives et dynamiques qui externalisent les connaissances du modèle sous forme d'artefacts exécutables.

Le défi principal :
Les benchmarks existants (comme HumanEval ou MBPP) se concentrent sur la correction algorithmique ou la reconstruction de mises en page statiques. Ils échouent à évaluer la capacité des modèles à :

Respecter les principes du monde réel : Intégrer des lois physiques, des contraintes temporelles ou du bon sens (ex: la gravité, la durée d'une semaine) dans la logique de l'application.
Gérer l'interactivité personnalisée : Créer des flux d'interaction complexes et non prédéfinis, au-delà des simples workflows CRUD (Create, Read, Update, Delete).
Évaluer des réponses ouvertes : Contrairement à un code avec un seul "ground truth" (vérité terrain), une MINIAPP peut être implémentée de multiples façons valides, rendant les méthodes d'évaluation traditionnelles (comparaison de chaînes de caractères ou scripts fixes) inadaptées.

2. Méthodologie

L'article propose une approche complète composée d'un nouveau benchmark et d'un cadre d'évaluation agentique.

A. MINIAPPBENCH (Le Benchmark)

Il s'agit du premier benchmark conçu spécifiquement pour évaluer la génération d'applications interactives guidées par des principes.

Source des données : Dérivé de plus de 10 millions de requêtes utilisateurs réelles issues d'une plateforme de production.
Construction : Un pipeline rigoureux en quatre étapes a permis de filtrer et d'augmenter les données pour aboutir à 500 tâches de haute qualité.
Structure des données : Chaque tâche est définie par un tuple $\tau_i = \langle q_i, (c_i, s_i), r_i, d_i \rangle$ $τ_{i} = ⟨ q_{i}, (c_{i}, s_{i}), r_{i}, d_{i} ⟩$ :
- $q_i$ : Requête utilisateur naturelle.
- $(c_i, s_i)$ : Taxonomie à deux niveaux (Domaine et Sous-classe).
- $r_i$ : Référence d'évaluation structurée (non un code fixe, mais des contraintes vérifiables).
- $d_i$ : Niveau de difficulté (Facile, Moyen, Difficile).
Domaines couverts : 6 domaines principaux (Sciences, Jeux, Outils, Humanités, Vie quotidienne, Visualisation) et 25 sous-catégories.
Critères de sélection : Les tâches exigent une interaction personnalisée (transitions d'état complexes, opérateurs d'interaction non standards) et l'application de principes du monde réel (lois physiques, contraintes logiques).

B. MINIAPPEVAL (Le Cadre d'Évaluation Agentique)

Pour surmonter l'absence de vérité terrain unique, les auteurs proposent un framework d'évaluation basé sur des agents.

Technologie : Utilisation de Playwright pour l'automatisation du navigateur, permettant une exploration interactive similaire à celle d'un humain (clics, saisie, observation du comportement à l'exécution).
Processus : Un agent LLM interagit avec l'application générée, collecte des preuves (DOM, logs, code source) et évalue l'application selon trois dimensions :
1. Intention : L'application répond-elle à l'objectif global de l'utilisateur ?
2. Statique : Le code est-il structuré correctement, accessible et conforme aux attentes visuelles sans exécution ?
3. Dynamique : Le comportement à l'exécution respecte-t-il la logique séquentielle, les dépendances causales et les principes du monde réel (ex: gestion des cas limites, robustesse) ?
Innovation : Contrairement aux scripts fixes, l'agent explore de manière ouverte pour vérifier si l'application fonctionne comme un système dynamique cohérent.

3. Contributions Clés

Paradigme d'interaction : Redéfinit l'interaction humain-LLM comme passant du texte statique aux MINIAPPS (interfaces visuelles interactives et logiques exécutables).
MINIAPPBENCH : Un benchmark de 500 tâches, le premier à exiger l'alignement entre le code exécutable et le raisonnement implicite de l'utilisateur (principes du monde réel).
MINIAPPEVAL : Un framework d'évaluation agentique novateur qui combine analyse statique et exploration dynamique, démontrant une forte corrélation avec le jugement humain.
Analyse des limites : Mise en évidence des lacunes actuelles des LLMs dans la génération d'applications complexes et respectueuses des principes physiques/logiques.

4. Résultats Expérimentaux

Les expériences ont été menées sur une large gamme de modèles (Open-source et Closed-source, incluant GPT-5, Claude, Gemini, Qwen, etc.).

Performance Globale : Les résultats sont décevants. Le taux de réussite moyen (pass rate) sur l'ensemble des modèles est de 17,05 %. Le meilleur modèle, GPT-5.2, atteint un taux de 45,46 %, ce qui indique que même les modèles les plus avancés peinent à générer des MINIAPPS de haute qualité.
Écart Open vs Closed-Source : Les modèles propriétaires (Closed-source) surpassent systématiquement les modèles open-source, avec un écart significatif.
Analyse par Difficulté : La performance diminue avec l'augmentation de la difficulté. Les petits modèles open-source (ex: Qwen3-32B) obtiennent des taux très faibles (0,66 %), tandis que les modèles plus grands montrent une amélioration, mais restent limités sur les tâches complexes.
Analyse par Domaine :
- Les modèles réussissent mieux dans les domaines de Visualisation et de Vie quotidienne (besoins de bon sens), où les objectifs sont clairs.
- Ils échouent davantage dans les domaines nécessitant des connaissances scientifiques profondes ou une ingénierie logicielle complexe (ex: Sciences, Outils).
Validité de l'Évaluation :
- L'étude d'ablation montre que la suppression de la référence d'évaluation (Eval-Ref) ou de l'agent dynamique réduit drastiquement la précision et le rappel.
- L'évaluation par Double Aveugle (pour les tâches visuelles) améliore la précision de 3 à 5 points en réduisant le biais de confirmation, prouvant que les méthodes standard surestiment souvent la qualité visuelle.
- Corrélation Humain-IA : MINIAPPEVAL atteint un coefficient Kappa de Cohen de 0,81 à 0,89 par rapport aux experts humains, validant sa fiabilité.

5. Signification et Impact

Nouveau Standard : MINIAPPBENCH comble un vide critique dans l'évaluation des LLMs, passant de la génération de code "boîte noire" à l'évaluation de systèmes interactifs complexes.
Défi pour l'IA : Les résultats soulignent que la simple génération de syntaxe valide ne suffit pas. Les futurs modèles doivent maîtriser le raisonnement sur les principes du monde réel et la conception de systèmes dynamiques.
Méthodologie Robuste : L'approche d'évaluation agentique (MINIAPPEVAL) offre une solution viable pour évaluer des tâches génératives ouvertes où aucune vérité terrain unique n'existe, établissant une norme pour la recherche future sur les agents autonomes et les interfaces interactives.

En conclusion, cet article marque un tournant vers une évaluation plus réaliste des capacités des LLMs à agir comme des "Architectes Autonomes" capables de construire des solutions logicielles complètes et interactives, tout en fournissant les outils nécessaires pour mesurer ce progrès.

MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants

1. Le Problème : L'IA est trop "théoricienne"

2. La Solution : L'IA devient un "Architecte Constructeur"

3. Le Défi : Comment noter une IA qui invente ?

4. Le Résultat : L'IA a encore du travail à faire

En résumé

1. Problématique et Contexte

2. Méthodologie

A. MINIAPPBENCH (Le Benchmark)

B. MINIAPPEVAL (Le Cadre d'Évaluation Agentique)

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

Articles similaires

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem