Evolution Strategies for Deep RL pretraining

Lo studio dimostra che, sebbene le strategie evolutive siano meno costose computazionalmente, non superano sistematicamente l'efficienza del Deep Reinforcement Learning e offrono benefici significativi solo come fase di pre-addestramento in ambienti semplici come Flappy Bird, risultando poco efficaci in compiti più complessi.

Adrian Martínez, Ananya Gupta, Hanka Goralija, Mario Rico, Saúl Fenollosa, Tamar Alphaidze

Pubblicato 2026-04-02
📖 5 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover insegnare a un bambino (o a un robot) a giocare a videogiochi o a camminare. Ci sono due modi principali per farlo: il Metodo "Genio Matematico" (Deep Reinforcement Learning o DRL) e il Metodo "Prova ed Errore Casuale" (Evolution Strategies o ES).

Gli autori di questo studio hanno messo questi due metodi a confronto per vedere quale fosse più veloce, più intelligente e se potessero aiutarsi a vicenda.

1. I Due Protagonisti

  • Il "Genio Matematico" (DRL): Pensa a un bambino molto intelligente che osserva ogni movimento e pensa: "Se muovo la mano di un millimetro a destra, il punteggio sale di 0,5. Quindi devo muovermi a destra!". È un metodo potente e preciso, ma richiede molta energia mentale (calcolo) e se il bambino si confonde un po', può impazzire e smettere di imparare.
  • Il "Prova ed Errore Casuale" (ES): Pensa a un bambino che non capisce la matematica, ma è molto coraggioso. "Proviamo a saltare a destra... no, caduto. Proviamo a saltare a sinistra... no, caduto. Proviamo a saltare un po' più forte... oh, è rimasto in piedi!". Non usa la logica complessa, ma prova milioni di varianti casuali e tiene solo quelle che funzionano. È più semplice e robusto, ma spesso meno preciso.

2. La Grande Domanda

Gli scienziati si sono chiesti:

  1. Il metodo "Prova ed Errore" (ES) è più veloce del "Genio Matematico" (DRL)?
  2. Se usiamo il metodo "Prova ed Errore" per dare una base iniziale al "Genio Matematico", questo imparerà più velocemente? (Come dare a un bambino un piccolo aiuto prima di fargli fare i compiti da solo).

3. L'Esperimento: Tre Livelli di Gioco

Hanno fatto fare ai robot tre tipi di giochi, dal più semplice al più difficile:

  • Livello 1: Flappy Bird (Il gioco facile). Un uccellino che deve passare tra tubi. È semplice, ma richiede tempismo.
  • Livello 2: Breakout (Il gioco medio). Rompi i mattoni con una pallina. Qui serve vedere lo schermo e capire la fisica.
  • Livello 3: MuJoCo (Il gioco difficile). Far camminare un robot umanoide o un animale virtuale. È come insegnare a un bambino a camminare su un terreno sconnesso senza cadere.

4. Cosa è Emerso? (I Risultati)

🟢 Nel gioco facile (Flappy Bird)

Il metodo "Prova ed Errore" (ES) ha funzionato benissimo! Ha imparato velocemente a non morire.

  • La sorpresa: Quando hanno usato il "Genio Matematico" (DRL) partendo da quello che aveva già imparato il "Prova ed Errore", il bambino è diventato un campione molto più velocemente.
  • Metafora: È come se il bambino avesse imparato a stare in equilibrio su una bicicletta con le rotelle (ES) e poi, togliendo le rotelle, avesse imparato a guidare da solo (DRL) in metà tempo.

🔴 Nel gioco medio e difficile (Breakout e Robot)

Qui le cose sono cambiate.

  • Il "Genio Matematico" (DRL) è diventato il campione, raggiungendo punteggi altissimi.
  • Il "Prova ed Errore" (ES) si è bloccato. Nel gioco di Breakout, non è riuscito a capire come usare la telecamera (i pixel) e ha smesso di migliorare presto. Nel gioco del robot, ci ha messo 20 volte di più rispetto al "Genio Matematico" per imparare a camminare.
  • Il fallimento dell'aiuto: Quando hanno provato a dare al "Genio Matematico" le conoscenze del "Prova ed Errore" come base, non è servito a nulla. Il "Genio" non ha imparato più velocemente e non è diventato più stabile.
  • Metafora: È come se aveste dato a un campione di scacchi (DRL) le note di un bambino che ha imparato a giocare a "Morra cinese" (ES). Le note non sono utili perché i giochi sono troppo diversi. Il bambino ha imparato cose che il campione di scacchi non può usare.

5. La Conclusione Semplificata

Lo studio ci insegna che:

  1. Non esiste un metodo perfetto per tutto. Il metodo "Prova ed Errore" (ES) è ottimo per cose semplici e stabili, ma fatica a scalare quando il gioco diventa complesso e visivo.
  2. L'ibrido non funziona sempre. Pensavamo che usare ES per "riscaldare" i motori prima di usare DRL fosse una strategia vincente. In realtà, funziona solo nei giochi semplici. Nei giochi complessi, i due metodi "parlano lingue diverse" e non riescono a trasferire le conoscenze l'uno all'altro.
  3. Il futuro: Per farli lavorare insieme, bisognerà inventare un modo per farli "parlare la stessa lingua", magari cambiando la loro architettura interna.

In sintesi: Se devi insegnare a un robot a saltare un ostacolo basso, usa il metodo "Prova ed Errore" e poi passa al "Genio Matematico". Se devi fargli imparare a fare parkour o giocare a un videogioco complesso, affidati direttamente al "Genio Matematico", perché il metodo "Prova ed Errore" si perderebbe nel caos.