AutoResearch-RL: Perpetual Self-Evaluating Reinforcement Learning Agents for Autonomous Neural Architecture Discovery

Each language version is independently generated for its own context, not a direct translation.

Imaginez un laboratoire de recherche scientifique qui ne dort jamais, où un chercheur artificiel travaille 24 heures sur 24, 7 jours sur 7, sans jamais boire de café ni prendre de pause. C'est l'essence du projet AutoResearch-RL décrit dans ce papier.

Voici une explication simple de ce système, imagée comme une course de voitures autonome.

1. Le Concept : Un Mécanicien Robotique

Imaginez que vous avez une voiture de course (c'est votre programme d'intelligence artificielle, le fichier train.py). Habituellement, c'est un ingénieur humain qui regarde la voiture, pense : "Peut-être que si je change la forme du pare-chocs, elle ira plus vite ?", puis il modifie la voiture, la teste sur la piste, et regarde le chronomètre.

Le problème ? Les humains sont lents, ils dorment, et ils ne peuvent tester que quelques idées par jour.

AutoResearch-RL, c'est un mécanicien robotique qui :

Regarde la voiture.
Imagine une modification (ex: "Je vais changer la couleur du moteur" ou "Je vais ajouter une aile").
Modifie le code de la voiture.
Lance la voiture sur la piste pendant exactement 5 minutes.
Regarde le temps qu'elle a mis.
Si c'est mieux, il garde le changement. Si c'est pire, il annule tout et recommence.
Il répète cela infiniment, sans jamais s'arrêter.

2. Les Trois Règles du Jeu (Le "Cercle Magique")

Pour que ce robot ne devienne pas fou, les auteurs ont mis en place trois règles strictes, comme les règles d'un jeu vidéo :

La Piste est Fixe (L'Environnement) : La route, le carburant et les règles de la course ne changent jamais. Cela garantit que si la voiture va plus vite, c'est vraiment grâce à la modification du robot, et pas parce que la piste était plus glissante ce jour-là.
La Voiture est Modifiable (Le Code) : Le robot a le droit de toucher à tout dans le fichier de la voiture, sauf à la piste. Il peut changer la taille des pneus, le logiciel de pilotage, etc.
Le Robot Apprend (L'Agent) : Le robot ne devine pas au hasard. Il se souvient de toutes ses tentatives passées. S'il a essayé de mettre des pneus trop gros hier et que ça a raté, il n'essaiera pas la même chose demain. Il utilise une technique appelée PPO (un peu comme un coach sportif qui félicite ou corrige le robot en fonction de ses performances).

3. Le Super-Pouvoir : Le "Tireur de Balle" (Auto-Évaluation)

C'est ici que ça devient vraiment intelligent.
Parfois, le robot lance une voiture avec un moteur défectueux. Si on laisse la voiture courir ses 5 minutes complètes, on perd du temps et de l'essence pour un résultat nul.

Le système a un second robot, un "Tireur de Balle", qui regarde la voiture courir en temps réel.

Il observe la vitesse pendant les 30 premières secondes.
Il dit : "Attends, cette voiture part mal. Si elle continue comme ça, elle ne finira jamais le tour dans un bon temps."
Il arrête la voiture immédiatement.

L'analogie : Imaginez que vous cuisinez un gâteau. Au lieu de le laisser cuire 1 heure pour voir s'il est brûlé, vous le regardez toutes les 5 minutes. Si vous voyez qu'il est déjà noir, vous l'éteignez tout de suite. Vous gagnez du temps pour essayer un autre gâteau. Grâce à cette astuce, le robot peut tester 2,4 fois plus d'idées dans la même journée.

4. Les Résultats : Qui gagne ?

Les chercheurs ont mis ce robot en compétition avec :

Un expert humain (qui a passé des années à régler sa voiture).
Un robot "naïf" (qui essaie des choses au hasard sans apprendre).
AutoResearch-RL (notre robot qui apprend).

Le verdict :
Après une seule nuit de travail (environ 8 heures), le robot AutoResearch-RL a trouvé une configuration de voiture plus rapide que celle de l'expert humain. Et ce n'est pas fini : plus il tourne longtemps (une semaine, un mois), plus il trouve de petites améliorations, comme un athlète qui continue de battre ses propres records.

5. Pourquoi c'est important ?

Avant, la découverte de nouvelles idées en intelligence artificielle dépendait de la fatigue des chercheurs humains. On ne pouvait pas travailler la nuit, on avait des préjugés, et on était lent.

Avec AutoResearch-RL, la vitesse de découverte n'est plus limitée par le nombre de cerveaux humains, mais par la quantité d'électricité et de processeurs disponibles. C'est comme passer d'un atelier de menuiserie manuel à une usine automatisée qui ne s'arrête jamais.

En résumé : C'est un robot qui apprend à coder lui-même en testant des milliers d'idées par jour, en annulant les mauvaises idées en cours de route, et en devenant de plus en plus intelligent à chaque seconde, sans jamais avoir besoin d'un humain pour lui dire quoi faire.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

L'histoire du deep learning est traditionnellement guidée par des cycles d'essais-erreurs humains, un processus lent, coûteux et limité par les heures de travail. Bien que l'Automatisation de l'Apprentissage Automatique (AutoML) ait tenté d'automatiser certaines parties de ce processus, les approches conventionnelles traitent souvent l'espace de recherche comme fixe et l'évaluateur comme une boîte noire. Cela ne permet pas d'explorer des changements fondamentaux dans la dynamique d'entraînement, les formulations de perte ou la conception des optimiseurs.

Le papier propose AutoResearch-RL, un cadre où un agent d'apprentissage par renforcement (RL) conduit une recherche de code ouverte et perpétuelle sans supervision humaine. L'objectif est de découvrir automatiquement des architectures neuronales et des hyperparamètres optimaux en modifiant directement le script d'entraînement, jusqu'à ce qu'un oracle de terminaison signale la convergence ou l'épuisement des ressources.

2. Méthodologie

Le système est formalisé comme un Processus de Décision Markovien (MDP) et repose sur une séparation claire de trois préoccupations :

Environnement figé : Pipeline de données, protocole d'évaluation et constantes (garantissant une comparaison équitable).
Fichier cible modifiable : train.py, qui représente l'état éditable de l'agent.
Meta-learner : L'agent RL lui-même, qui accumule l'historique des expériences pour informer les propositions futures.

A. Formulation du MDP

État ( $s_t$ ) : Concaténation du code source actuel, de l'historique des expériences (diffs de code, récompenses) et des diagnostics système (mémoire GPU, temps écoulé).
Action ( $a_t$ ) : Une modification structurée (diff : insertion, remplacement, suppression) appliquée au fichier train.py.
Récompense ( $r_t$ ) : Basée sur l'amélioration du bits-per-byte de validation (val-bpb) et un bonus d'efficacité computationnelle. Le bpb est choisi car il est indépendant du tokeniseur et normalise la perte par rapport au nombre d'octets.
Budget : Chaque expérience est exécutée avec un budget de temps fixe (ex: 300 secondes) pour assurer la comparabilité, indépendamment de la taille du modèle ou du batch.

B. Architecture de l'Agent

Politique : L'agent utilise un modèle de langage (Transformer) finetuné avec PPO (Proximal Policy Optimization).
Mémoire de travail : L'état inclut une fenêtre glissante des $K=32$ dernières expériences et un résumé des meilleures configurations trouvées, permettant à l'agent d'apprendre des stratégies de recherche à long terme plutôt que de simples edits isolés.
Boucle perpétuelle : L'agent propose un diff, le code est compilé et entraîné, la récompense est calculée, et la politique est mise à jour. Si le code ne compile pas, une pénalité est appliquée.

C. Module d'Auto-Évaluation (Self-Evaluation)

Pour éviter le gaspillage de ressources sur des configurations prometteuses, un module d'auto-évaluation surveille la courbe de perte en temps réel :

Prédiction : Toutes les 30 secondes, un modèle de loi de puissance est ajusté pour extrapoler le bpb final.
Arrêt anticipé : Si la prédiction dépasse un seuil pessimiste (basé sur la meilleure performance historique et l'écart-type), l'entraînement est arrêté prématurément.
Théorie des bandits : Ce module est modélisé comme un problème d'identification du meilleur bras (best-arm identification) utilisant un test de rapport de vraisemblance séquentiel (SPRT) pour minimiser les faux arrêts.

3. Contributions Clés

Formulation MDP rigoureuse : Première modélisation formelle d'une boucle de recherche de code autonome perpétuelle.
Politique Meta-PPO : Introduction d'une politique conditionnée à l'historique complet des expériences, permettant l'apprentissage de stratégies de recherche.
Garanties de convergence : Démonstration théorique que la meilleure performance observée (bpb) converge presque sûrement vers le minimum atteignable dans l'espace de configuration, sous des hypothèses raisonnables.
Module d'Auto-Évaluation : Un mécanisme qui récupère jusqu'à 2,4 fois plus de débit d'expériences par heure GPU en arrêtant les runs non prometteurs.
Résultats empiriques : Preuve que l'agent peut surpasser les experts humains et les baselines LLM "greedy" (sans RL) sur un benchmark de pré-entraînement.

4. Résultats Expérimentaux

Les expériences ont été menées sur un benchmark nanochat (pré-entraînement sur un sous-ensemble de FineWeb) utilisant un seul GPU NVIDIA H100.

Performance : Après environ 8 heures de calcul (environ 100 expériences), AutoResearch-RL a atteint un val-bpb de 2,681, surpassant :
- L'expert humain (2,847).
- La recherche aléatoire (2,791).
- L'agent LLM "greedy" sans RL (2,734).
Efficacité du débit : Le module d'auto-évaluation a permis d'arrêter 54,3 % des expériences prématurément, augmentant le nombre d'expériences par heure de 1,35x et améliorant l'efficacité globale des échantillons de 2,4x.
Découvertes qualitatives : L'agent a découvert des modifications non triviales et cohérentes avec les avancées récentes, notamment :
- Ajustement de l'échelle de l'optimiseur Muon et réduction du poids de régularisation (weight decay).
- Ajout de la normalisation L2 sur les requêtes et clés (QK-norm) pour stabiliser l'attention.
- Introduction d'un calendrier de "gradient clipping" dynamique.
- Augmentation de la profondeur du modèle (de 12 à 14 couches) tout en respectant le budget de temps.
Évolutivité : Les performances continuent de s'améliorer sur des échelles de temps plus longues (semaines), passant de 2,681 à 2,608 après une semaine de calcul.

5. Signification et Conclusion

AutoResearch-RL représente une avancée majeure vers une nouvelle mode de progrès scientifique en apprentissage automatique.

Changement de paradigme : Il déplace la limite de la découverte algorithmique de la bande passante humaine vers la puissance de calcul disponible.
Autonomie : L'agent ne se contente pas d'ajuster des hyperparamètres, mais réécrit la logique d'entraînement elle-même, découvrant des recettes d'entraînement (training recipes) complexes.
Sécurité : Le système est conçu avec des garde-fous stricts (budget de temps, pas d'accès réseau, modification d'un seul fichier) pour garantir une opération sûre et reproductible.

En conclusion, ce travail démontre qu'un agent RL perpétuel, capable d'auto-évaluation et d'apprentissage à partir de l'historique, peut surpasser l'intuition humaine dans la conception de modèles de langage, ouvrant la voie à une recherche scientifique entièrement automatisée.