Automating Skill Acquisition through Large-Scale Mining of Open-Source Agentic Repositories: A Framework for Multi-Agent Procedural Knowledge Extraction

Each language version is independently generated for its own context, not a direct translation.

🚀 Du "Cerveau Géant" au "Kit d'Outils Intelligent" : Comment apprendre aux IA à faire des choses concrètes

Imaginez que vous avez un génie de la lampe (une Intelligence Artificielle comme nous) qui connaît tout par cœur : il connaît l'histoire, la physique, la cuisine et les mathématiques. C'est un expert en connaissances théoriques. Mais si vous lui demandez : "Peux-tu m'expliquer ce théorème de géométrie en dessinant une vidéo animée étape par étape ?", il risque de bégayer. Il sait ce qu'est un théorème, mais il ne sait pas comment le dessiner, ni quel logiciel utiliser, ni comment corriger une erreur de code.

Ce rapport propose une solution révolutionnaire : au lieu de forcer le génie à apprendre tout par cœur (ce qui est lent et coûteux), on lui donne un kit d'outils modulaires appelés "Compétences" (Skills).

Voici comment ça marche, en quatre étapes simples :

1. Le Problème : Le Génie est trop "Théorique"

Actuellement, les IA sont comme des bibliothécaires qui ont lu tous les livres du monde mais qui n'ont jamais tenu un pinceau ou un marteau. Elles ont beaucoup de savoir (déclaratif), mais peu de savoir-faire (procédural). Pour les rendre capables de faire des tâches complexes, on doit souvent les réentraîner, ce qui est comme essayer de réécrire tout le cerveau du génie à chaque fois qu'il apprend une nouvelle tâche. C'est trop lent et trop cher.

2. La Solution : Le "Vol" Intelligent de Recettes (L'Extraction)

Les auteurs du rapport ont eu une idée brillante : pourquoi ne pas aller chercher les compétences là où elles existent déjà ?
Il y a des millions de développeurs qui ont écrit des programmes complexes sur GitHub (un site où les codeurs partagent leurs travaux). Ces programmes sont comme des recettes de cuisine ultra-détaillées.

Le rapport propose un système automatisé pour :

Scanner ces milliers de projets (comme TheoremExplainAgent ou Code2Video).
Identifier les "recettes" réutilisables (par exemple : "Comment animer un graphique mathématique").
Nettoyer la recette pour qu'elle soit universelle (enlever les ingrédients spécifiques à une seule cuisine).
Transformer cette recette en un fichier standardisé appelé SKILL.md.

C'est comme si vous preniez une recette de gâteau complexe écrite par un chef étoilé, vous la simplifiiez, et vous la glissiez dans le carnet de recettes du génie. Maintenant, le génie sait exactement quoi faire, sans avoir besoin de réapprendre à cuisiner.

3. La Boîte à Outils Magique : Le format `SKILL.md`

Pour que le génie puisse utiliser ces compétences, elles doivent être rangées dans une boîte spéciale. C'est là qu'intervient le format SKILL.md. Imaginez-le comme une boîte à outils intelligente avec trois tiroirs :

Tiroir 1 (L'étiquette) : Une petite étiquette qui dit "Je suis une compétence pour animer des maths". Le génie la voit tout de suite pour savoir si c'est utile.
Tiroir 2 (Les instructions) : Le mode d'emploi détaillé. "D'abord, faites ceci, puis cela, et si ça plante, faites ça". C'est le cœur de la compétence.
Tiroir 3 (Les outils) : Les scripts de code, les modèles et les ressources nécessaires. Ils ne sont ouverts que si le génie en a vraiment besoin, pour ne pas encombrer sa mémoire.

4. La Sécurité : Le Douanier Rigoureux

On ne peut pas simplement prendre n'importe quel code sur Internet et le donner à une IA. Il pourrait y avoir des virus ou des pièges.
Le rapport propose un système de sécurité en 4 niveaux (comme un douanier très strict) :

Analyse statique : Vérifier si le code contient des mots dangereux (comme "effacer tout").
Analyse sémantique : Un autre IA lit le code pour comprendre : "Est-ce que cette recette fait vraiment ce qu'elle dit ?".
Sandbox (La cage de verre) : On exécute le code dans une cage isolée. Si ça explose, ça n'explose que dans la cage, pas sur l'ordinateur principal.
Validation des permissions : On vérifie que la compétence n'essaie pas d'accéder à des fichiers qu'elle n'a pas le droit de toucher.

Les Résultats : Une École du Futur

Les auteurs ont testé ce système sur deux projets éducatifs :

TheoremExplainAgent : Un système qui crée des vidéos pour expliquer des théorèmes mathématiques complexes.
Code2Video : Un système qui transforme du code informatique en vidéos éducatives.

Le résultat est bluffant :
En utilisant ces compétences extraites, les IA génératrices de vidéos éducatives ont augmenté de 40 % leur efficacité pour transmettre des connaissances par rapport aux modèles classiques. De plus, la qualité de l'enseignement était aussi bonne, voire meilleure, que celle faite par des humains.

En Résumé

Ce rapport nous dit que l'avenir de l'Intelligence Artificielle ne repose pas sur la création de "monstres" de plus en plus gros qui savent tout, mais sur la création d'un écosystème modulaire.
Imaginez une IA qui est un chef de cuisine : elle a un cerveau brillant, mais elle s'appuie sur des milliers de recettes spécialisées (les compétences) qu'elle peut piocher à la demande. Grâce à l'extraction automatique de ces recettes dans les projets open-source du monde entier, nous pouvons rendre les IA beaucoup plus utiles, plus sûres et capables d'apprendre de nouvelles tâches en quelques secondes, sans avoir à les rééduquer.

C'est le passage d'une intelligence statique (qui sait) à une intelligence dynamique (qui sait faire).

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Le passage des grands modèles de langage (LLM) monolithiques à des architectures d'agents modulaires et équipés de compétences représente un changement de paradigme fondamental. Bien que les LLM actuels possèdent une vaste connaissance déclarative, leur efficacité dans l'exécution autonome de tâches réelles est limitée par un manque d'expertise procédurale spécialisée.

Le défi principal réside dans l'acquisition de ces compétences (« skills ») à grande échelle. Les méthodes traditionnelles, basées sur l'écriture manuelle par des experts, garantissent la fiabilité mais ne sont pas évolutives. Les méthodes de découverte autonome peinent souvent à maintenir la cohérence sémantique. Ce rapport propose une troisième voie : l'extraction systématique de connaissances procédurales à partir de dépôts de code open-source existants (notamment sur GitHub), transformant des bases de code monolithiques en unités de compétences réutilisables et standardisées.

2. Méthodologie : Le Cadre d'Extraction

Le rapport présente un cadre méthodologique en trois étapes principales pour transformer des dépôts GitHub en artefacts de compétences standardisés (format SKILL.md).

A. Analyse Structurelle et Contextualisation

L'extraction commence par une décomposition structurelle des dépôts cibles. Des outils comme repo2AI génèrent des représentations Markdown des hiérarchies de fichiers. Cette étape permet aux agents d'extraction de comprendre les modèles d'orchestration des tâches et les dépendances logiques, en identifiant les scripts centraux (ex: generate_video.py) et les configurations spécifiques.

B. Identification Sémantique par Récupération Dense

Une fois la structure cartographiée, le système identifie des « compétences latentes » (modèles procéduraux récurrents) via une approche en deux étapes :

Récupération Dense : Utilisation de bi-encodeurs pour convertir les descriptions de tâches et les modules de code en vecteurs denses. La similarité cosinus permet d'identifier les modules candidats.
Classement Binaire : Un classificateur cross-encoder affine la pertinence. Seuls les modules répondant à des critères stricts (récurrence, vérification fonctionnelle, non-évidence, généralisabilité) sont retenus.

C. Traduction vers le Standard SKILL.md

Les modèles identifiés sont traduits dans le format SKILL.md, une spécification ouverte (initialement développée par Anthropic) utilisant une architecture de « divulgation progressive » :

Niveau 1 (Métadonnées) : En-tête YAML (nom, déclencheurs, dépendances) chargé au démarrage pour une identification rapide.
Niveau 2 (Instructions) : Connaissances procédurales (flux de travail, meilleures pratiques) injectées dans le contexte lors de l'activation.
Niveau 3 (Ressources) : Scripts exécutables, documents de référence et modèles chargés à la demande.

3. Contributions Clés et Études de Cas

Le rapport illustre l'application de ce cadre sur deux systèmes de pointe utilisant le moteur d'animation mathématique Manim :

TheoremExplainAgent (TEA) : Un système à deux agents (Planificateur et Codeur) générant des explications visuelles de théorèmes STEM.
- Compétence extraite : visual-theorem-walkthrough. Elle encapsule la logique de création de storyboards pédagogiques et de débogage automatique de code Python pour Manim.
Code2Video : Un cadre éducatif à trois agents (Planificateur, Codeur, Critique) générant des vidéos éducatives centrées sur le code.
- Compétence extraite : visual-layout-critic. Elle implémente le « Visual Anchor Prompting », une technique permettant à un modèle vision-langage d'analyser la disposition spatiale des éléments visuels via une grille de coordonnées pour détecter les chevauchements et suggérer des refactorisations.

Contribution Architecturale : Le rapport définit formellement une compétence agent comme un quadruplet $S = (C, \pi, T, R)$ (Conditions d'application, Politique, Critères de terminaison, Interface), distinguant ainsi les compétences des simples outils ou mémoires épisodiques.

4. Résultats et Évaluation

L'évaluation des compétences extraites repose sur des métriques multidimensionnelles incluant la sécurité, l'exécutabilité et l'efficacité pédagogique.

Efficacité Pédagogique : Les vidéos éducatives générées par les agents (basées sur les compétences extraites) ont démontré une augmentation de 40 % de l'efficacité du transfert de connaissances par rapport aux modèles de génération de code de base. Dans certains cas, la qualité pédagogique surpassait celle des tutoriels créés par des humains.
Performance Technique : L'implémentation de l'agent TEA a obtenu un score global de 0,77 sur le benchmark TheoremExplainBench, établissant un état de l'art pour le raisonnement scientifique multimodal.
Réduction de la Complexité : L'utilisation d'un réseau de compétences (SkillNet) permet une réduction de 30 % des étapes d'exécution grâce à la composition de compétences.

5. Sécurité et Gouvernance

L'extraction automatisée de code public présente des risques de sécurité (injections, accès non autorisés). Le rapport propose un pipeline de vérification à quatre niveaux pour classer les compétences par niveaux de confiance :

G1 (Analyse Statique) : Détection de motifs suspects (ex: eval(), appels réseau).
G2 (Classification Sémantique) : Vérification par LLM de l'alignement des instructions et de l'absence d'injections cachées.
G3 (Sandboxing Comportemental) : Exécution des scripts dans des conteneurs isolés avec surveillance des ressources.
G4 (Validation des Permissions) : Vérification stricte contre des manifestes de permissions.

6. Signification et Perspectives

Ce travail marque une transition fondamentale de l'intelligence statique vers des écosystèmes de compétences modulaires, gouvernables et évolutifs.

Découplage de la Connaissance : La séparation de la connaissance procédurale (compétences) des paramètres du modèle permet des mises à jour de capacités sans réentraînement coûteux (réduction des coûts de 2 à 3 ordres de grandeur).
Interopérabilité : Le standard SKILL.md est agnostique au fournisseur de LLM, favorisant l'interopérabilité entre différents agents.
Évolution Continue : L'avenir réside dans l'émergence d'« Agents d'Évolution » capables d'extraire des logs d'exécution pour affiner continuellement les compétences, créant ainsi une pile technologique agentic où les compétences fournissent l'intelligence de domaine et les protocoles (comme le Model Context Protocol) gèrent la connectivité.

En conclusion, l'extraction systématique de connaissances procédurales à partir de dépôts open-source offre une voie scalable pour doter les agents IA d'une expertise de niveau expert, dépassant les limitations des modèles monolithiques tout en garantissant sécurité et maintenabilité.