Can LLMs Beat Classical Hyperparameter Optimization Algorithms? A Study on autoresearch

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de perfectionner une recette de gâteau (dans ce cas, un petit modèle d'intelligence artificielle) pour qu'il soit le plus délicieux possible. Le problème, c'est qu'il y a des milliers de façons de le faire : changer la quantité de sucre, la température du four, le temps de cuisson, etc. Ces réglages s'appellent des hyperparamètres.

L'objectif de cette recherche était de répondre à une question simple : Qui est le meilleur chef ?

Un algorithme classique (un robot mathématique très rigoureux) ?
Un agent IA (un grand modèle de langage comme un chatbot très intelligent) qui peut modifier la recette à la main ?
Ou une équipe mixte qui combine les deux ?

Voici ce qu'ils ont découvert, expliqué simplement :

1. Le Robot Mathématique gagne sur le terrain connu

Les chercheurs ont d'abord donné aux participants une liste fixe de 14 ingrédients à ajuster (comme le robot CMA-ES ou TPE).

Le résultat : Les algorithmes classiques ont gagné haut la main. Ils sont comme des chefs de cuisine expérimentés qui ont une carte précise. Ils savent exactement où chercher, ils ne se perdent pas et ils trouvent la meilleure recette très vite.
Le problème de l'IA seule : Quand on a demandé à l'IA (un modèle de 27 milliards de paramètres) de choisir parmi cette même liste fixe, elle a eu du mal. Elle a souvent fait des erreurs (comme essayer de mettre trop de sucre, ce qui fait planter le four). Elle manquait de discipline et de mémoire pour se souvenir de ce qui avait déjà échoué.

2. L'IA brille quand elle a le droit de réécrire la recette

Ensuite, ils ont laissé l'IA faire ce qu'elle fait de mieux : modifier directement le code source (la recette elle-même), sans se limiter à une liste d'options.

Le résultat : Là, l'IA a rattrapé son retard ! Elle a pu dire : "Attends, je ne vais pas juste changer le sucre, je vais changer la façon dont on mélange la pâte."
La leçon : L'IA est excellente quand elle a de la créativité et de la liberté. Mais pour que ça marche, elle doit être grosse et puissante (comme le modèle de 27 milliards de paramètres). Un petit modèle (0,8 milliard) n'est pas assez intelligent pour réécrire la recette sans faire de bêtises.

3. La solution miracle : "Centaur" (Le Chevalier mi-homme, mi-cheval)

C'est ici que l'étude devient géniale. Les chercheurs ont créé une méthode hybride appelée Centaur.

L'idée : Imaginez un pilote de course (l'algorithme classique) qui connaît parfaitement la piste et la mécanique, assis à côté d'un copilote expert (l'IA) qui connaît la cuisine.
Comment ça marche : Le pilote conduit 70% du temps. Mais 30% du temps, il demande au copilote : "Hé, qu'en penses-tu ?" Le copilote regarde la situation, utilise son intuition, et suggère un petit ajustement. Le pilote accepte, ajuste la trajectoire, et continue.
Le résultat étonnant : Cette équipe mixte a gagné tous les prix.
- Elle a trouvé la meilleure recette finale.
- Elle a été plus stable (moins d'erreurs).
- Le plus fou : Le petit copilote (0,8 milliard de paramètres) a même battu le grand copilote (27 milliards) ! Pourquoi ? Parce que le pilote (l'algorithme classique) gérait déjà la route difficile. Le copilote n'avait besoin que de petits conseils intelligents, pas de réécrire tout le livre.

En résumé, les grandes leçons de l'étude :

La fiabilité bat la diversité : Il vaut mieux éviter les catastrophes (comme faire fondre le four) que d'essayer des choses trop exotiques qui échouent. Les algorithmes classiques sont très bons pour éviter les pièges.
L'IA a besoin d'un cadre : Si vous laissez une IA seule dans un espace de recherche limité, elle est moins bonne qu'un robot mathématique. Mais si vous lui donnez la liberté de créer (modifier le code), elle devient très forte.
Le mélange est la clé : La meilleure stratégie n'est pas de choisir entre l'humain (ou l'IA) et la machine, mais de les mettre dans la même voiture. L'algorithme classique fournit la structure et la sécurité, tandis que l'IA apporte l'intuition et la créativité pour affiner les résultats.

En une phrase : Pour optimiser une IA, ne laissez pas l'IA conduire seule sur une route inconnue, et ne laissez pas non plus un robot rigide décider de tout. Mettez un robot au volant et un expert à côté pour donner des conseils, et vous aurez la meilleure performance possible.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'optimisation des hyperparamètres (HPO) est un pilier central de l'AutoML. Récemment, des travaux comme autoresearch ont démontré qu'un agent basé sur un Grand Modèle de Langage (LLM) pouvait améliorer un petit modèle de langage en modifiant directement le code d'entraînement. Cependant, il reste à déterminer si ces agents LLM surpassent les algorithmes d'optimisation classiques (comme CMA-ES ou TPE) dans des conditions équitables, et comment ils se comportent face à des contraintes de ressources et de fiabilité.

Les auteurs se posent deux questions principales :

Comment les méthodes classiques de HPO se comportent-elles sur cette tâche par rapport aux agents LLM ?
Les méthodes basées sur les LLM peuvent-elles surpasser les méthodes classiques, et dans quelles conditions ?

2. Méthodologie

Environnement de test (Benchmark)

Tâche : Entraînement d'un petit modèle de langage (environ 50M de paramètres, basé sur nanochat) sur le jeu de données FineWeb.
Métrique : Bits par octet de validation (val_bpb).
Contraintes : Budget fixe de 24 heures d'entraînement sur GPU (NVIDIA H200), avec 3 graines aléatoires.
Espace de recherche :
- Fixe : 14 hyperparamètres extraits automatiquement du script d'entraînement via analyse AST (Abstract Syntax Tree), éliminant ainsi la curation manuelle de l'espace de recherche.
- Non contraint : Édition directe du code source d'entraînement par l'agent LLM (approche autoresearch).

Méthodes comparées (9 au total)

Les auteurs ont évalué trois catégories de méthodes :

Classiques (4) : TPE (Tree-structured Parzen Estimator), CMA-ES (Covariance Matrix Adaptation Evolution Strategy), SMAC, et Recherche Aléatoire.
Basées sur LLM (4) :
- LLAMBO (deux variantes : portage OptunaHub et réimplémentation du papier).
- Agent Karpathy (deux variantes : suggestion dans l'espace fixe et édition de code non contrainte).
- Tous utilisent le modèle Qwen3.5-27B (auto-hébergé).
Hybride (1) : Centaur, une nouvelle méthode proposée par les auteurs.

Proposition de Centaur

Centaur est un hybride qui combine CMA-ES et un LLM.

Mécanisme : Sur 30 % des essais, le LLM reçoit l'état interne complet de CMA-ES (vecteur moyen $\mu$ , pas $\sigma$ , matrice de covariance $C$ ), les 5 meilleures configurations et l'historique des 20 derniers essais.
Fonctionnement : Le LLM peut outrepasser la proposition de CMA-ES (ce qu'il fait dans 95-100 % des cas). Cependant, CMA-ES met à jour son état interne en fonction de tous les résultats, y compris ceux où le LLM a pris le relais, permettant à l'optimiseur classique d'apprendre de la trajectoire complète.
Choix de CMA-ES : Son état interne est interprétable pour le LLM (contrairement aux estimateurs de densité complexes de TPE ou aux posterior GP).

3. Résultats Clés

A. Espaces de recherche fixes : Les méthodes classiques dominent

Dans un espace d'hyperparamètres fixe, les méthodes classiques (CMA-ES, TPE) surpassent systématiquement les agents LLM purs.

Performance : CMA-ES et TPE convergent plus vite et vers de meilleures valeurs finales que les agents LLM.
Fiabilité vs Diversité : La capacité à éviter les échecs de mémoire (OOM - Out Of Memory) est un prédicteur de performance plus fort que la diversité de recherche.
- Les méthodes LLM pures (comme LLAMBO) présentent des taux d'OOM élevés (48-61 %), comparables à une recherche aléatoire, car elles échouent à suivre l'état d'optimisation et à identifier les zones dangereuses de l'espace de recherche.
- Les méthodes classiques maintiennent des taux d'OOM faibles (11-16 %) grâce à leur gestion explicite de l'état d'optimisation.

B. Édition de code non contrainte : Le LLM rattrape le retard

L'agent Karpathy (Code), qui modifie directement le code source, est la seule méthode LLM pure compétitive avec les méthodes classiques, malgré l'utilisation d'un modèle open-weight (27B).

Échelle du modèle : Le passage d'un modèle 0.8B à 27B est crucial pour l'édition de code non contrainte (le 0.8B échoue). En revanche, pour les méthodes à hyperparamètres fixes, l'augmentation de la taille du modèle n'apporte aucun avantage significatif.

C. Centaur : La meilleure performance globale

La méthode hybride Centaur obtient les meilleurs résultats de l'étude.

Stabilité : Centaur réduit considérablement la variance entre les graines par rapport à CMA-ES seul (écart-type de 0.0005 contre 0.0036), grâce à l'injection de connaissances de domaine par le LLM qui empêche l'optimiseur de dériver vers des configurations défavorables.
Efficacité du modèle : De manière surprenante, la variante Centaur (0.8B) surpasse la variante Centaur (27B). Cela suggère que lorsqu'un optimiseur classique robuste gère la trajectoire de recherche, un LLM "pas cher" suffit pour affiner les candidats prometteurs, contrairement à la génération de code brute qui nécessite un modèle plus puissant.

4. Contributions Principales

Benchmark complet : Évaluation de 9 méthodes HPO (classiques, LLM, hybrides) sur la tâche autoresearch avec des budgets et des graines identiques.
Analyse comparative : Démonstration que les méthodes classiques surpassent les agents LLM dans les espaces fixes, tandis que l'édition de code directe permet aux LLM de se rapprocher significativement des performances classiques.
Introduction de Centaur : Une nouvelle méthode hybride partageant l'état interne complet de CMA-ES avec un LLM, atteignant les meilleurs résultats expérimentaux.
Insights sur la fiabilité : Mise en évidence que la gestion des échecs (OOM) est plus critique que la simple diversité de recherche pour les modèles de taille moyenne.

5. Signification et Conclusion

Cette étude établit que, pour l'instant, les méthodes classiques d'optimisation restent supérieures aux agents LLM purs pour l'ajustement d'hyperparamètres dans des espaces définis, principalement en raison de leur fiabilité et de leur capacité à éviter les configurations infeasibles.

Cependant, l'approche hybride Centaur démontre le potentiel de combiner les forces des deux mondes : la robustesse et la gestion de l'état de CMA-ES, et l'intuition de domaine du LLM. Le fait qu'un petit modèle (0.8B) fonctionne mieux dans ce cadre hybride qu'un modèle géant (27B) suggère une voie prometteuse pour des systèmes d'optimisation efficaces et peu coûteux.

L'étude conclut que si les modèles de pointe (frontier models) pourraient réduire l'écart dans l'édition de code non contrainte, l'hybridation avec des optimiseurs classiques reste la stratégie la plus performante et stable actuellement pour l'optimisation d'hyperparamètres.