Deep Tabular Research via Continual Experience-Driven Execution

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez devant vous un vieux classeur de comptabilité rempli de tableaux. Ces tableaux sont un vrai chaos : certaines colonnes sont fusionnées, d'autres sont inversées, les titres sont cachés dans des sous-titres, et il manque des chiffres ici et là.

Si vous demandez à un humain de faire une analyse complexe sur ce document (par exemple : "Comparez les ventes du troisième trimestre par département, en excluant les produits en perte, et calculez la tendance"), il ne va pas simplement lire la première ligne. Il va :

Chercher où sont les données.
Se tromper peut-être une fois.
Se rendre compte de l'erreur, corriger sa méthode.
Essayer à nouveau avec une approche différente.
Finalement, trouver la réponse.

C'est exactement ce que fait le papier que vous avez soumis, intitulé "Deep Tabular Research" (Recherche Tabulaire Profonde).

Voici l'explication simple, avec des analogies pour mieux comprendre :

1. Le Problème : Les IA sont trop "littérales"

Les grands modèles de langage (comme ceux qui écrivent des textes) sont très forts pour lire des phrases. Mais quand on leur donne un tableau désordonné, ils ont tendance à essayer de le lire comme un roman.

L'analogie : C'est comme demander à un lecteur de livre de réparer une voiture en lisant le manuel. Il connaît les mots, mais il ne sait pas comment tourner la clé de contact. Les tableaux réels sont souvent "cassés" ou mal rangés, et les IA actuelles s'y perdent.

2. La Solution : Un "Chef d'Orchestre" qui apprend par l'expérience

Les auteurs proposent un nouveau système appelé DTR. Au lieu de demander à l'IA de deviner la réponse d'un coup, ils transforment le processus en une boucle d'expérimentation.

Imaginez que l'IA n'est plus un simple lecteur, mais un chef d'orchestre qui dirige un groupe de musiciens (les outils de calcul).

A. La Carte au Trésor (Le "Meta Graph")

Avant de jouer, le chef d'orchestre doit comprendre la partition. Le système crée d'abord une "carte mentale" du tableau.

L'analogie : C'est comme si vous preniez un plan de métro complexe et que vous le transformiez en un schéma simple montrant quels tunnels (colonnes) sont connectés à quelles stations (lignes), même si le plan original était illisible.

B. Le Choix de la Route (La "Sélection par Attente")

Le chef d'orchestre a plusieurs façons de jouer la musique (plusieurs façons de calculer). Il ne choisit pas au hasard. Il utilise une boussole intelligente.

L'analogie : Imaginez que vous cherchez un chemin dans une forêt.
- Le chemin A a été emprunté 10 fois et a toujours mené à la sortie.
- Le chemin B n'a jamais été essayé, mais il semble prometteur.
- Le système DTR dit : "Allons sur le chemin A car il a de bonnes chances de marcher, mais gardons un œil sur le chemin B au cas où il serait encore meilleur."
  C'est ce qu'ils appellent l'équilibre entre exploitation (utiliser ce qu'on connaît) et exploration (tester de nouvelles choses).

C. Le Journal de Bord (La "Mémoire en Jumeaux")

C'est la partie la plus géniale. Si le chef d'orchestre se trompe de note, il ne se contente pas de dire "Oups". Il écrit dans un journal spécial.

L'analogie : Ce journal a deux pages :
1. La page technique : "J'ai essayé de faire une moyenne, mais les données étaient vides. Donc, je dois nettoyer les données avant de faire la moyenne." (C'est l'expérience concrète).
2. La page stratégique : "Quand on demande des ventes par région, il faut toujours vérifier les dates en premier." (C'est l'expérience abstraite, une règle générale).
  À chaque nouvelle question, l'IA relit ce journal pour ne pas refaire les mêmes erreurs. C'est comme un apprenti qui devient un expert grâce à ses échecs passés.

3. Le Résultat : Plus rapide et plus intelligent

Grâce à cette méthode, le système DTR ne perd pas de temps à essayer des milliers de combinaisons au hasard. Il apprend de chaque tentative.

L'analogie finale : C'est la différence entre un étudiant qui apprend par cœur un livre de maths (les anciennes IA) et un chercheur qui fait des expériences en laboratoire, note ses résultats, ajuste sa théorie, et finit par découvrir la loi de la gravité.

En résumé :
Ce papier dit : "Arrêtons de demander aux IA de simplement 'lire' des tableaux compliqués. Donnons-leur des outils pour agir, laissez-les essayer, laissez-les se tromper, et faites-leur apprendre de leurs erreurs pour résoudre des problèmes complexes sur le long terme."

C'est une avancée majeure pour rendre les IA capables de faire de véritables analyses de données dans le monde réel, là où les tableaux sont rarement parfaits.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : La Recherche Tabulaire Profonde (DTR)

Les modèles de langage (LLM) actuels excellent dans le raisonnement sur des données structurées et des schémas de tables propres. Cependant, ils peinent face aux tables non structurées du monde réel (comme les feuilles de calcul complexes), qui présentent :

Des en-têtes hiérarchiques et bidirectionnels.
Des cellules fusionnées et des valeurs manquantes.
Des mises en page non canoniques et des relations sémantiques implicites.

L'article formalise ce défi sous le nom de Deep Tabular Research (DTR). Contrairement aux tâches de Question-Réponse sur les tables (TableQA) traditionnelles qui sont souvent des requêtes factuelles à un seul saut, la DTR concerne des tâches analytiques à long horizon. Ces tâches nécessitent :

Un raisonnement multi-étapes et multi-sauts (multi-hop).
Une acquisition de données coordonnée, des calculs numériques et une synthèse analytique.
Une vérification itérative et des branchements conditionnels où les résultats intermédiaires doivent être examinés et révisés avant d'atteindre une conclusion validée.

Les approches existantes, basées sur la sérialisation du texte ou l'apprentissage contextuel (in-context learning), échouent souvent en raison des contraintes de tokens et de l'incapacité à gérer des opérations numériques précises sur de grandes structures irrégulières.

2. Méthodologie : Le Cadre Agentique DTR

Les auteurs proposent un cadre agentique novateur qui traite le raisonnement tabulaire comme un processus de prise de décision en boucle fermée, piloté par l'expérience d'exécution. Le système découple explicitement la planification stratégique de haut niveau de l'exécution de bas niveau.

Le framework repose sur trois composants clés :

A. Compréhension Tabulaire et Modélisation Structurelle

Avant tout raisonnement, le système construit une représentation structurée de la table brute :

Extraction de métadonnées : Identification des en-têtes hiérarchiques, des unités de mesure et des marqueurs temporels.
Identification d'en-têtes bidirectionnels : Résolution des spans de lignes et de colonnes pour associer chaque cellule à des descripteurs sémantiques de ligne et de colonne.
Construction d'un graphe méta ( $G_T$ ) : Les entités non structurées sont organisées en un graphe où les nœuds sont des éléments d'en-tête ou de contenu, et les arêtes représentent les relations de hiérarchie et de contenance. Ce graphe capture la structure organisationnelle complexe de la table.

B. Cartographie des Opérations Guidée par la Requête

Au lieu de raisonner directement sur les cellules, le système mappe les requêtes naturelles vers un espace d'opérateurs analytiques prédéfinis (un "banque d'opérations sémences" : CLEAN, FILTER, GROUP, AGG, JOIN, SORT, etc.).

Un agent LLM décompose la requête en sous-requêtes et sélectionne une séquence d'opérateurs candidats.
Une carte d'opérations est construite pour encoder les dépendances et les ordres admissibles (par exemple, AGG nécessite un contexte de regroupement défini).

C. Planification de Chemin avec Sélection "Consciente des Attentes"

Pour naviguer dans l'espace des chemins d'exécution possibles, le système utilise une politique de sélection basée sur l'espérance (Expectation-Aware Selection) :

Score d'attente ( $E(\pi)$ ) : Pour chaque chemin candidat $\pi$ $π$ , le système calcule un score combinant :
1. Le retour espéré historique $\hat{R}(\pi)$ (exploitation).
2. Un terme d'exploration basé sur le nombre d'exécutions passées et la plausibilité structurelle (formule inspirée de l'UCB - Upper Confidence Bound).
Boucle de raffinement : Le système n'exécute pas un chemin en une seule passe. Il réfléchit aux résultats intermédiaires, met à jour les statistiques des chemins et réoriente la planification vers les séquences les plus prometteuses.

D. Mémoire Structurée en Mode "Siamese" et Réflexion

Le cœur de l'apprentissage continu réside dans une mémoire à deux flux (mode siamese) :

Feedback d'exécution paramétré : Signaux concrets (succès/échec, temps d'exécution, cohérence des types de sortie) utilisés pour ajuster immédiatement les chemins en cours.
Expérience abstraite : Résumé sémantique des échecs et succès passés (ex: "l'agrégation échoue souvent sans nettoyage préalable"). Cette expérience est agnostique aux valeurs spécifiques de la table, permettant un transfert de connaissances vers de nouveaux problèmes.

Mise à jour continue : Les récompenses et les expériences abstraites mettent à jour dynamiquement les scores d'attente des chemins candidats, permettant au système d'éviter les erreurs récurrentes et de privilégier les stratégies éprouvées.

3. Contributions Clés

Formalisation de la DTR : Définition d'une nouvelle tâche de raisonnement analytique à long horizon sur des tables non structurées, allant au-delà du simple TableQA.
Cadre Agentique en Boucle Fermée : Introduction d'une architecture qui sépare la planification macro (stratégique) de l'exécution micro (opérationnelle), utilisant l'expérience accumulée pour guider les décisions.
Optimisation Pilotée par l'Expérience : Proposition d'un mécanisme de sélection conscient des attentes et d'une mémoire structurée (siamese) permettant au système d'apprendre de ses échecs et de réduire la propagation des erreurs.
Validation Empirique : Évaluation extensive sur des benchmarks non structurés, démontrant la supériorité de l'approche par rapport aux modèles LLM purs et aux agents existants.

4. Résultats Expérimentaux

Les expériences ont été menées sur DTR-Bench (un nouveau benchmark créé pour l'étude, contenant 500 requêtes analytiques complexes) et RealHitBench.

Performance Globale : DTR surpasse systématiquement les modèles de base (LLM purs comme DeepSeek-V3, Qwen3) et les frameworks d'agents existants (ST-Raptor, TreeThinker, Code Loop) sur toutes les dimensions : précision, profondeur d'analyse, faisabilité et esthétique des rapports générés.
Efficacité : Contrairement aux approches par "Code Loop" qui nécessitent de nombreux appels LLM (8,8 en moyenne) avec un taux d'erreur élevé, DTR atteint des performances supérieures avec moins d'appels (4,78 en moyenne), évitant les boucles d'itération excessives grâce à sa sélection de chemin intelligente.
Analyse d'ablation :
- L'ajout d'informations métadonnées et la décomposition des requêtes apportent les gains les plus significatifs.
- L'utilisation de l'historique d'exécution pour la planification macro améliore encore la précision.
- La stratégie de prompt [THINK]+[CODE] (raisonnement explicite avant génération de code) s'avère optimale pour équilibrer précision et stabilité.
Dynamique d'Exploration : L'analyse montre que le système explore initialement divers chemins, puis converge progressivement vers des stratégies à haut rendement tout en maintenant une diversité suffisante pour s'adapter aux contextes spécifiques.

5. Signification et Impact

Cet article établit que le raisonnement tabulaire complexe ne peut pas être résolu par la simple génération de texte ou l'exécution de code sans supervision. La séparation entre planification stratégique et exécution opérationnelle, couplée à un mécanisme d'apprentissage continu par l'expérience, est essentielle pour gérer l'ambiguïté structurelle des données réelles.

Impact potentiel :

Automatisation décisionnelle : Amélioration des outils d'aide à la décision dans des domaines comme l'analyse financière, la recherche scientifique et les rapports de données publiques.
Robustesse : Réduction des erreurs humaines et des efforts manuels dans les flux de travail d'analyse de données complexes.
Paradigme de recherche : Pose les bases d'une nouvelle approche pour les agents IA capables de raisonner sur des données non structurées de manière itérative et adaptative.

En conclusion, DTR représente une avancée majeure vers des systèmes d'IA capables de naviguer et d'analyser la complexité des données tabulaires du monde réel avec la même rigueur qu'un analyste humain expérimenté.