AutoSAM: an Agentic Framework for Automating Input File Generation for the SAM Code with Multi-Modal Retrieval-Augmented Generation

Zaid Abulawi (Department of Nuclear Engineering, Texas A&M University, Nuclear Science and Engineering Division, Argonne National Laboratory), Zavier Ndum Ndum (Department of Nuclear Engineering, Texas A&M University, Nuclear Science and Engineering Division, Argonne National Laboratory), Eric Cervi (Nuclear Science and Engineering Division, Argonne National Laboratory), Rui Hu (Nuclear Science and Engineering Division, Argonne National Laboratory), Yang Liu (Department of Nuclear Engineering, Texas A&M University)

Publié 2026-03-27

📖 5 min de lecture🧠 Analyse approfondie

Voir sur arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

🌟 Le Problème : Le "Boulot de Traducteur" Épuisant

Imaginez que vous êtes un architecte chargé de construire un réacteur nucléaire ultra-sophistiqué. Vous avez toutes les informations nécessaires : des dessins sur des plans, des tableaux de données dans des Excel, des rapports techniques en PDF et des schémas complexes.

Le problème ? Le logiciel qui va simuler le comportement du réacteur (appelé SAM) est comme un robot très strict et un peu bête. Il ne comprend pas le français, ni les dessins, ni les tableaux. Il ne parle qu'un langage de code très précis et ennuyeux.

Actuellement, un ingénieur humain doit passer des jours, voire des semaines, à :

Lire tous ces documents différents.
Chercher les chiffres exacts (température, pression, taille des tuyaux).
Les recopier manuellement dans le langage du robot.
Espérer ne pas avoir fait une faute de frappe qui pourrait fausser toute la simulation.

C'est comme essayer de construire une maison en traduisant manuellement chaque phrase d'un livre de cuisine en une liste d'ingrédients pour un robot cuisinier. C'est lent, fatiguant et sujet aux erreurs.

🤖 La Solution : AutoSAM, le "Super-Assistant"

Les auteurs de l'article ont créé AutoSAM. C'est un agent intelligent (une sorte de robot assistant très doué) qui fait tout le travail de traduction et d'assemblage à la place de l'ingénieur.

Voici comment il fonctionne, avec des analogies simples :

1. Le Cerveau (Le Grand Livre de Connaissances)

L'agent ne devine pas les choses au hasard. Il a deux sources de sagesse :

Le Manuel de l'Utilisateur : Il a lu et mémorisé le "livre de règles" du logiciel SAM. Il sait exactement comment le robot parle.
La Mémoire Externe (RAG) : Si l'agent a un doute, il peut aller chercher instantanément la réponse dans les manuels techniques, comme un étudiant qui consulte son dictionnaire pendant un examen.

2. Les Yeux et les Oreilles (La Vision Multi-modale)

C'est là que ça devient magique. L'agent ne lit pas seulement du texte.

Il voit les images : Si vous lui donnez un schéma de tuyauterie dessiné à la main ou une photo d'un plan, il peut "comprendre" où sont les pompes et les vannes, même si ce n'est pas écrit en mots.
Il lit les tableaux : Il peut ouvrir un fichier Excel et extraire les chiffres directement.
Il déchiffre les PDF : Il est capable de lire des rapports techniques complexes, de trouver les équations cachées et de comprendre les graphiques.

3. La Boîte à Outils (Les 7 Outils Spéciaux)

L'agent n'est pas seul. Il a une boîte à outils avec 7 gadgets spéciaux :

Des outils pour lire les fichiers Excel et les textes.
Des outils pour analyser les images et les schémas.
Des outils pour vérifier que le code qu'il écrit est correct (comme un correcteur orthographique pour les mathématiques).
Des outils pour assembler le tout.

🛠️ Le Processus : Comment ça se passe ?

Imaginez que vous donnez à l'agent un dossier contenant un vieux rapport PDF, un schéma dessiné sur un coin de table et un fichier Excel.

L'Exploration : L'agent ouvre tous les documents. Il lit le PDF, regarde le dessin, analyse le tableau Excel. Il rassemble toutes les pièces du puzzle.
Le Brouillon Intermédiaire (La Sécurité) : Au lieu de donner le résultat final directement, l'agent crée d'abord un brouillon structuré (comme une liste de courses bien organisée).
- Pourquoi ? C'est une étape cruciale. Un humain (l'ingénieur) peut vérifier ce brouillon. "Ah, l'agent a oublié la pression de la pompe ! Je vais le corriger." Cela évite les catastrophes.
La Traduction Finale : Une fois validé, l'agent traduit ce brouillon en langage informatique pour le logiciel SAM.
Le Résultat : Le logiciel SAM reçoit le fichier, le comprend parfaitement, et lance la simulation.

🧪 Les Résultats : Ça marche vraiment ?

Les chercheurs ont testé AutoSAM avec 4 défis de plus en plus difficiles :

Un simple tuyau : L'agent a réussi à traduire un fichier Excel simple en simulation parfaite.
Un réacteur avec retour de chaleur : Il a compris comment la chaleur influence la réactivité (un peu comme un thermostat qui s'ajuste tout seul).
Le cœur d'un réacteur complexe (ABTR) : Il a réussi à lire un schéma technique et un PDF pour reconstruire un système à 5 canaux parallèles.
La boucle complète d'un réacteur à sels fondus (MSRE) : C'était le niveau "Expert". L'agent a dû reconstituer tout le circuit (pompe, cœur, échangeur de chaleur) à partir de documents hétérogènes.

Le verdict ?

Il a utilisé 100% des données structurées (Excel).
Il a extrait 88% des informations dans les textes PDF.
Il a compris 100% des informations géométriques dans les images et les dessins.

💡 En Résumé

AutoSAM, c'est comme avoir un traducteur universel et un assistant d'ingénierie qui travaille 24h/24.

Avant : L'ingénieur passait 90% de son temps à copier-coller des chiffres et 10% à penser à la physique.
Avec AutoSAM : L'agent fait le copier-coller et l'assemblage. L'ingénieur passe son temps à vérifier le travail de l'agent et à se concentrer sur la conception et la sécurité.

C'est une révolution pour l'avenir des réacteurs nucléaires : on passe d'une époque où l'on "construit" manuellement les modèles à une époque où l'on donne des instructions (prompt) et des documents, et l'IA construit le modèle pour nous, tout en restant sous contrôle humain pour garantir la sécurité.

AutoSAM: an Agentic Framework for Automating Input File Generation for the SAM Code with Multi-Modal Retrieval-Augmented Generation

🌟 Le Problème : Le "Boulot de Traducteur" Épuisant

🤖 La Solution : AutoSAM, le "Super-Assistant"

1. Le Cerveau (Le Grand Livre de Connaissances)

2. Les Yeux et les Oreilles (La Vision Multi-modale)

3. La Boîte à Outils (Les 7 Outils Spéciaux)

🛠️ Le Processus : Comment ça se passe ?

🧪 Les Résultats : Ça marche vraiment ?

💡 En Résumé

1. Problématique

2. Méthodologie : Le cadre AutoSAM

A. Connaissance de domaine spécialisée

B. Traitement de documents multi-modaux

C. Outils spécialisés (7 outils)

D. Représentation intermédiaire (Boucle humaine)

3. Contributions Clés

4. Résultats et Évaluation

5. Signification et Impact

AutoSAM: an Agentic Framework for Automating Input File Generation for the SAM Code with Multi-Modal Retrieval-Augmented Generation

🌟 Le Problème : Le "Boulot de Traducteur" Épuisant

🤖 La Solution : AutoSAM, le "Super-Assistant"

1. Le Cerveau (Le Grand Livre de Connaissances)

2. Les Yeux et les Oreilles (La Vision Multi-modale)

3. La Boîte à Outils (Les 7 Outils Spéciaux)

🛠️ Le Processus : Comment ça se passe ?

🧪 Les Résultats : Ça marche vraiment ?

💡 En Résumé

1. Problématique

2. Méthodologie : Le cadre AutoSAM

A. Connaissance de domaine spécialisée

B. Traitement de documents multi-modaux

C. Outils spécialisés (7 outils)

D. Représentation intermédiaire (Boucle humaine)

3. Contributions Clés

4. Résultats et Évaluation

5. Signification et Impact

Articles similaires

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

When Is Collective Intelligence a Lottery? Multi-Agent Scaling Laws for Memetic Drift in LLMs

Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Formal Semantics for Agentic Tool Protocols: A Process Calculus Approach

Supervising Ralph Wiggum: Exploring a Metacognitive Co-Regulation Agentic AI Loop for Engineering Design