FinSheet-Bench: From Simple Lookups to Complex Reasoning, Where LLMs Break on Financial Spreadsheets

Ce papier présente FinSheet-Bench, un benchmark de données financières synthétiques révélant que les modèles d'IA actuels, bien que performants sur des tâches simples, échouent encore à atteindre la fiabilité nécessaire pour une utilisation autonome dans l'extraction et le raisonnement sur des feuilles de calcul financières complexes, ce qui suggère la nécessité d'approches architecturales combinant compréhension de document et calcul déterministe.

Jan Ravnik, Matjaž Ličen, Felix Bührmann, Bithiah Yuan, Felix Stinson, Tanvi Singh

Publié 2026-03-10
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

📊 Le Problème : Les IA et les "Cahiers de Comptabilité" Géants

Imaginez que vous êtes un détective financier. Votre travail consiste à examiner des centaines de gros cahiers de comptabilité (des fichiers Excel) appartenant à des fonds d'investissement privés. Ces cahiers sont remplis de chiffres, de noms d'entreprises, de dates et de formules complexes.

Jusqu'à récemment, les Intelligences Artificielles (IA) étaient devenues très douces pour lire des livres, des emails ou des contrats. Elles pouvaient résumer un texte ou trouver une phrase précise. Mais dès qu'on leur a demandé de lire ces cahiers de comptabilité, elles ont commencé à faire des erreurs graves.

C'est comme si vous donniez un roman à un enfant très intelligent : il peut raconter l'histoire, mais si vous lui demandez de calculer la somme des dépenses d'un personnage en regardant un tableau de chiffres mal rangé, il se trompe.

🔍 L'Expérience : FinSheet-Bench

Les auteurs de cet article (une équipe de Zurich) ont créé un terrain de jeu d'entraînement spécial appelé FinSheet-Bench.

  • Le Défi : Ils ont pris la structure réelle de vrais cahiers financiers (très compliqués, avec des lignes qui se mélangent, des couleurs, des titres bizarres) et ont créé une version "fausse" mais réaliste pour ne pas trahir de secrets d'entreprise.
  • Le Test : Ils ont demandé à 10 des meilleures IA du monde (comme GPT-5, Gemini, Claude) de répondre à des questions sur ces cahiers.
    • Question facile : "Combien y a-t-il de fonds ?"
    • Question difficile : "Quel est le montant moyen de la dette pour chaque entreprise, en triant les résultats du plus grand au plus petit ?"

📉 Les Résultats : L'IA est encore trop "bavarde" pour être seule

Les résultats sont sans appel : Aucune IA ne peut travailler seule dans une banque aujourd'hui.

  1. Sur les tâches simples : Les IA sont très bonnes (environ 90 % de réussite). Si on leur demande "Quel est le nom de cette entreprise ?", elles trouvent presque toujours la bonne réponse.
  2. Sur les tâches complexes : Dès qu'il faut faire des calculs, trier des listes ou additionner des chiffres sur plusieurs pages, les IA s'effondrent. Leur taux de réussite chute à environ 30 %.

L'analogie du "Chef d'orchestre" :
Imaginez que l'IA est un chef d'orchestre très talentueux.

  • Si vous lui demandez de jouer une seule note (rechercher un chiffre), il est parfait.
  • Mais si vous lui demandez de diriger tout l'orchestre en même temps qu'il fait des additions mentales rapides, il perd le fil, joue faux et mélange les instruments.

Même la meilleure IA du test (Gemini 3.1 Pro) se trompe environ 1 fois sur 6 questions. En finance, se tromper une fois sur 6, c'est catastrophique. Cela pourrait signifier investir des millions de dollars dans la mauvaise entreprise.

🧠 Pourquoi est-ce si difficile pour elles ?

L'article explique deux raisons principales, avec des images simples :

  1. La perte de la "carte" (Le problème de la traduction) :
    Les fichiers Excel sont comme des grilles 2D (des tableaux avec des lignes et des colonnes). Pour les lire, l'IA doit transformer ce tableau en texte (une longue liste de mots séparés par des virgules).

    • L'image : C'est comme si vous preniez une carte routière colorée, vous la déchiriez en petits morceaux, et vous demandiez à quelqu'un de reconstruire le trajet en ne lui donnant que la liste des noms des rues, sans savoir où elles sont situées les unes par rapport aux autres. L'IA perd le sens de l'espace.
  2. Le manque de "calculatrice" :
    Les IA sont faites pour prédire le mot suivant, pas pour faire des maths exactes. Elles essaient de "deviner" le résultat d'un calcul plutôt que de le faire pas à pas avec une précision absolue. C'est comme essayer de faire de la chirurgie avec des gants de boxe : on peut toucher le bon endroit, mais on ne peut pas faire le geste précis.

💡 La Solution : Ne pas tout laisser à l'IA

L'article ne dit pas que l'IA est inutile. Il dit qu'il faut changer de méthode.

Au lieu de demander à l'IA de tout faire (lire + calculer + trier), il faut la diviser en deux équipes :

  1. L'IA (Le Lecteur) : Elle sert uniquement à trouver les bons chiffres dans le texte (ex: "Trouve le chiffre de la dette pour l'entreprise X"). Elle est très bonne là-dedans.
  2. Le Code (La Calculatrice) : Une fois que l'IA a donné les chiffres, un programme informatique simple et infaillible (un script Python) fait les calculs, les tris et les additions.

L'analogie finale :
Ne demandez pas à un poète (l'IA) de faire les comptes de la maison. Demandez-lui de lire la facture et de vous dire les chiffres, puis donnez ces chiffres à un comptable robotique (le code) qui fera l'addition.

🚀 Conclusion

Les IA financières progressent vite (elles sont passées de 33 % à 82 % de réussite en deux ans !), mais elles ne sont pas encore prêtes à travailler seules dans les banques. Pour l'instant, elles sont de superbes assistants qui peuvent faire le gros du travail de lecture, mais un humain doit toujours vérifier les calculs.

L'avenir n'est pas dans une IA "plus intelligente", mais dans une architecture plus intelligente où l'IA lit et un ordinateur calcule.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →