Auteurs originaux : Tejas Agrawal, Vu Le, Sumit Gulwani, Gust Verbruggen

Publié 2026-06-15

📖 1 min de lecture☕ Lecture pause café

Auteurs originaux : Tejas Agrawal, Vu Le, Sumit Gulwani, Gust Verbruggen

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée ni approuvée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Pas encore d'explication disponible dans cette langue.

Essayez : DE, EN, ES, FR, IT, JA, KO, NL, PT, ZH

Résumé technique : Un benchmark et un cadre d'évaluation pour la prédiction de la prochaine action dans les feuilles de calcul

Énoncé du problème

Alors que la complétion de code prédictive a considérablement accéléré la productivité des développeurs en génie logiciel, des fonctionnalités analogues pour la création de feuilles de calcul restent virtuellement inexistantes. Malgré l'omniprésence des tableurs, les outils d'automatisation actuels sont limités à des scénarios spécifiques (par exemple, la génération de formules ou la dérivation de colonnes via FlashFill) ou nécessitent l'invocation explicite d'agents de langage naturel par l'utilisateur. Pour les éditions routinières et répétitives, la charge de rédaction de prompts et l'attente des réponses dépassent souvent le coût d'une manipulation directe, ce qui amène les utilisateurs à privilégier la saisie manuelle.

Les principaux obstacles au développement de prédicteurs de la prochaine action généralisés pour les feuilles de calcul sont doubles :

Rareté des données : Contra irement au code, qui possède des historiques de versions détaillés, les corpus publics de feuilles de calcul manquent d'historiques d'édition fins. Les jeux de données existants ne capturent généralement que des instantanés statiques ou une évolution de haut niveau.
Complexité de l'évaluation : L'espace des actions de feuilles de calcul est complexe, impliquant des opérations spatiales, temporelles et composites. De plus, une évaluation statique de type « étant donné un historique $x$ , prédire la prochaine action $y$ » (teacher-forced) ne parvient pas à capturer la nature dynamique de l'interaction utilisateur, où les prédictions acceptées modifient l'état futur et les besoins ultérieurs de l'utilisateur.

Méthodologie

1. Construction du jeu de données de référence (Benchmark)

Pour remédier au manque d'historiques d'édition, les auteurs ont constitué un ensemble de 52 trajectoires de haute qualité totalisant 11 907 opérations. Ces trajectoires reconstruisent la création de feuilles de calcul à partir de classeurs publics statiques. Le pipeline de construction comprend trois étapes :

Démarrage à froid symbolique (Symbolic Cold-Start) : Un modèle de langage-vision (VLM) annote les feuilles statiques avec des métadonnées sémantiques (régions, dépendances, plages collées). Des heuristiques symboliques décomposent ensuite l'état final en opérations au niveau de la cellule, fusionnant les opérations identiques adjacentes en actions de plage.
Raffinement par LLM : Une boucle de juge-éditeur basée sur un LLM identifie et corrige les modèles non naturels dans les séquences symboliques (par exemple, consolider le formatage éparpillé cellule par cellule en opérations de plage, supprimer le formatage superflu).
Annotation humaine : Des annotateurs humains effectuent une passe finale pour corriger les sous-séquences non naturelles restantes. Cette étape est substantielle ; la distance d'édition normalisée moyenne entre les trajectoires pré-annotation et finales est de 0,69, et 19 des 52 trajectoires ont été effectivement réécrites de zéro.

Le jeu de données couvre diverses opérations incluant la saisie, la fusion, le formatage (police, remplissage, bordure, alignement), le collage et l'autocomplétion (autofill).

2. Cadre d'évaluation en ligne

Le papier propose un cadre d'évaluation en ligne qui simule un flux de travail utilisateur réel, allant au-delà du simple score par étape statique.

Processus : Le système observe un historique de $n$ actions et prédit une séquence de zéro ou plusieurs actions.
Acceptation/Rejet : Basée sur une heuristique d'acceptation (par exemple, seuils de précision, économies d'actions utilisateur), la prédiction est soit acceptée, soit rejetée.
Adaptation de l'état :
- Si Acceptée : La trajectoire de vérité terrain future est dynamiquement mise à jour. Les prédictions réussies suppriment les opérations futures correspondantes. Les faux positifs déclenchent l'insertion d'opérations inverses (par exemple, effacer un mauvais remplissage) pour annuler les erreurs.
- Si Rejetée : La prédiction est écartée, et la prochaine action de l'utilisateur de la vérité terrain est ajoutée à l'historique.
Terminaison : La boucle se répète jusqu'à ce que la feuille de calcul cible soit atteinte ou qu'un seuil d'étape soit dépassé.

3. Métriques

Le cadre calcule des métriques à trois niveaux de granularité :

Niveau Propriété/Action : Classifie les paires individuelles (cellule, propriété) comme Vrais Positifs (TP), Faux Positifs (FP), Faux Négatifs (FN) ou Écarts (MM).
Niveau Prédiction : Mesure la Précision (fraction de propriétés correctes) et les Actions Utilisateur Économisées (UAS), qui quantifie la réduction nette de l'effort de l'utilisateur si la prédiction était acceptée.
Niveau Émulation : Suit le Taux d'Acceptation (AR), la Précision Moyenne et la Couverture de Prédictibilité (PCOV) — la fraction des actions théoriquement prévisibles (déterminées par un oracle) que le système a réellement produites.

4. Solveurs de référence (Baselines)

Le cadre évalue trois familles de solveurs :

LLMs Zero-shot : Modèles (variantes GPT-5) sollicités avec l'historique et la syntaxe des opérations.
SLMs affinés (Fine-tuned) : Modèles SmolLM2 (135M et 360M de paramètres) entraînés sur des séquences d'opérations synthétiques.
ML Classique : Modèles N-gram (entraînés en ligne et hors ligne), LSTM et XGBoost.

Résultats clés

Apprentissage (Learnability) : La tâche est apprenable. Il existe une corrélation claire entre la capacité du modèle et la performance. GPT-5 avec raisonnement atteint 32,7 % de UAS dans les contextes de reprediction à action unique, tandis que GPT-5 mini atteint 18,0 %. Le modèle fine-tuné SmolLM2-360M (26,8 % UAS) approche la performance de GPT-5 (27,4 %) malgré sa taille nettement plus réduite.
L'importance de l'abstention : Les modèles qui manquent de capacité d'abstention sont peu performants. L'heuristique « ALWAYS » (accepter chaque prédiction) produit une UAS de -19,2 % (économie nette négative) en raison d'une faible précision (9,3 %). Cela confirme que savoir quand ne pas prédire est aussi critique que la précision de la prédiction.
Fréquence de déclenchement : Invoquer le prédicteur après chaque action de l'utilisateur ( $s=1$ ) produit la UAS la plus élevée (27,4 %) malgré un taux d'acceptation (30,9 %) inférieur à celui des déclenchements moins fréquents. Cela suggère que les déclenchements fréquents et peu coûteux sont précieux, car les utilisateurs peuvent rejeter les suggestions incorrectes sans pénalité significative.
Catégories d'actions : Les opérations lourdes en contenu (Saisie, Collage, Remplissage) sont acceptées à des taux plus élevés que les opérations de présentation (Alignement, Bordure). Le fine-tuning améliore considérablement la performance sur les catégories structurelles (Bordure, Remplissage, Autofill) où les modèles de base peinaient.
Longueur du contexte : Augmenter la fenêtre de contexte de 32 à 128 opérations améliore la UAS, mais les gains diminuent rapidement au-delà de 128, suggérant que la majeure partie du signal prédictif réside dans l'historique récent.
Longueur de prédiction : Dans les contextes multi-actions, une portée de prédiction illimitée est la plus performante. Contrareindre le nombre d'actions par prédiction réduit la UAS, indiquant que les modèles s'auto-régulent bien lorsqu'on leur permet d'émettre des séquences plus longues pour des motifs répétitifs.

Signification et contributions

Le papier apporte trois contributions principales :

Jeu de données de référence : Le premier jeu de données constitué de 52 trajectoires de création de feuilles de calcul (11 907 opérations) avec une vérité terrain validée par l'humain, répondant au manque critique de données d'historique d'édition.
Cadre d'évaluation en ligne : Une méthodologie d'évaluation novatrice qui modélise le comportement d'acceptation de l'utilisateur et adapte dynamiquement les trajectoires de vérité terrain. Cela capture l'utilité réelle et l'accumulation d'erreurs, ce que les évaluations statiques hors ligne manquent.
Aperçus de conception : En appliquant ce cadre à divers solveurs, les auteurs démontrent que :
- La prédiction d'action est une tâche viable tant pour les grands que pour les petits modèles.
- Les mécanismes d'abstention sont cruciaux pour l'utilité ; les modèles doivent apprendre à supprimer les prédictions lorsque la confiance est faible.
- Les déclencheurs peu coûteux (tentatives de prédiction fréquentes) sont plus efficaces qu'attendre des moments de haute confiance.
- Le fine-tuning sur des séquences d'opérations spécifiques au domaine permet à de petits modèles de rivaliser avec les grands LLM en zero-shot.

Les auteurs concluent que ce benchmark et ce cadre fournissent une base nécessaire pour développer des assistants proactifs et sans mode pour les feuilles de calcul. Ils encouragent explicitement la recherche de méthodes moins énergivores (comme les SLM affinés) pour résoudre ce problème.

A Benchmark and Framework for Evaluating Next Action Predictions in Spreadsheets