Correctness is its own reward: bootstrapping error signals in self-guided reinforcement learning
Questo studio propone che un circuito neurale locale, che impara a cancellare predittivamente il canto del tutor tramite plasticità sinaptica, sia sufficiente a generare segnali di errore interni che guidano l'apprendimento autonomo di comportamenti complessi, come dimostrato sia in modelli biologici che in agenti di apprendimento per rinforzo.