Can LLMs Beat Classical Hyperparameter Optimization Algorithms? A Study on autoresearch

Lo studio dimostra che, sebbene i metodi di ottimizzazione iperparametrica classici superino gli agenti LLM autonomi, l'approccio ibrido "Centaur", che combina lo stato interno di CMA-ES con un modello linguistico, ottiene i migliori risultati, rendendo sufficiente anche un piccolo modello da 0,8B quando affiancato da un ottimizzatore classico.

Fabio Ferreira, Lucca Wobbe, Arjun Krishnakumar, Frank Hutter, Arber Zela

Pubblicato 2026-03-27
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover cucinare il piatto perfetto (in questo caso, addestrare un'intelligenza artificiale) e hai a disposizione un budget di tempo e risorse limitato. Il tuo obiettivo è trovare la combinazione esatta di ingredienti e temperature (i "iperparametri") per ottenere il risultato migliore.

Questo articolo scientifico mette alla prova tre approcci diversi per trovare questa ricetta magica:

1. I "Chef Esperti" (I Metodi Classici)

Immagina CMA-ES e TPE come chef veterani, molto metodici. Non hanno un'idea creativa di cosa potrebbe funzionare, ma sono bravissimi a fare matematica.

  • Come lavorano: Provano una ricetta, assaggiano, e basandosi sul risultato, calcolano matematicamente quale piccola modifica apportare alla prossima. Sono come un navigatore GPS che ti dice: "Abbiamo sbagliato strada di 5 metri a sinistra, torniamo indietro e giriamo a destra".
  • Il risultato: Se il campo di ricerca è limitato (cioè se ti diciamo "puoi usare solo questi 14 ingredienti"), questi chef sono imbattibili. Trovano la soluzione velocemente e non si perdono mai.

2. Il "Cucinatore Geniale ma Distratto" (L'Agente LLM)

Poi c'è l'Agente LLM (un modello di linguaggio come Qwen). Immaginalo come un cuoco molto creativo che ha letto milioni di libri di cucina, ma che ha una memoria a breve termine un po' fragile.

  • Il problema: Se gli diciamo di lavorare solo con i 14 ingredienti fissi (come gli chef classici), l'agente LLM fa fatica. Si perde, prova combinazioni strane e spesso "brucia la pentola" (in termini tecnici: va in Out of Memory, cioè la memoria del computer si riempie e il programma crasha).
  • La svolta: Tuttavia, se diamo a questo cuoco il permesso di riscrivere la ricetta da zero (modificare direttamente il codice di addestramento), diventa molto più forte. Non si limita a cambiare le quantità, ma può inventare nuovi metodi di cottura. Anche se usa un modello "piccolo" (27 miliardi di parametri, che per gli standard attuali è medio-piccolo), riesce a competere con i metodi classici, ma richiede più tempo per arrivare allo stesso risultato.

3. Il "Centauro" (La Soluzione Ibrida)

Qui arriva la parte più interessante. Gli autori hanno creato Centaur (dal nome del mitico centauro, metà uomo e metà cavallo).

  • L'idea: Uniscono il meglio dei due mondi. Usano il "cavallo" (il metodo matematico CMA-ES) per guidare la direzione generale e non perdersi, ma lasciano che l'"uomo" (l'LLM) prenda decisioni creative su una piccola parte del viaggio (il 30% delle volte).
  • Come funziona: Il metodo matematico dice: "Andiamo verso nord". L'LLM, vedendo la mappa e i dati, dice: "Aspetta, so che lì c'è un bel prato, giriamo leggermente a est".
  • Il risultato sorprendente:
    1. Centaur è il vincitore assoluto: Trova la ricetta migliore di tutti.
    2. Non serve un gigante: La versione di Centaur che usa un modello LLM "piccolo" (0.8 miliardi di parametri) funziona meglio di quella che usa il modello "grande" (27 miliardi).
    • Perché? Perché quando il "cavallo" (il metodo matematico) tiene già la redina e sa dove andare, l'LLM non ha bisogno di essere un genio per fare piccoli aggiustamenti. Un assistente economico basta e avanza se ha una guida esperta.

Le Lezioni Principali (in parole povere)

  1. La fiaba della "Diversità" vs "Affidabilità": Molti pensavano che più un agente prova cose diverse (diversità), meglio è. Invece, in questo esperimento, è stato più importante non fare errori (evitare che il computer si blocchi). I metodi che hanno fallito meno volte hanno vinto, anche se sembravano meno "creativi".
  2. I piccoli modelli bastano (se aiutati): Se devi modificare codice complesso da zero, ti serve un modello grande e potente. Ma se devi solo dare un consiglio intelligente a un algoritmo matematico, un modello piccolo e economico funziona benissimo.
  3. Il futuro: Se usiamo modelli linguistici ancora più potenti (quelli "frontiera" che non sono ancora stati rilasciati), potrebbero diventare capaci di modificare il codice da soli in modo così efficace da battere anche i metodi classici, ma per ora, l'ibrido (Centaur) è la strada maestra.

In sintesi: Non serve scegliere tra "l'umano" (l'LLM) e "la macchina" (l'algoritmo classico). La soluzione migliore è farli lavorare insieme, dove la macchina guida il bus e l'umano suggerisce le scorciatoie più belle. E, sorpresa delle sorprese, per questo compito, non serve un umano super-intelligente, basta un assistente competente!