Correctness is its own reward: bootstrapping error signals in self-guided reinforcement learning
Este estudo propõe e valida um modelo em que a memorização de uma canção-tutor e a avaliação de desempenho em tentilhões-zebra são mediadas pelo mesmo circuito neural de cancelamento preditivo, o qual gera sinais de erro internos capazes de orientar a aprendizagem autônoma de comportamentos complexos sem necessidade de recompensas externas.