Marginals Before Conditionals
O artigo demonstra que redes neurais aprendem primeiro a distribuição marginal de uma tarefa ambígua, estabilizando-se em um platô de erro determinado pelo nível de ambiguidade, antes de sofrer uma transição abrupta para a solução condicional completa, um processo governado pelo ruído do gradiente e pela formação antecipada de um mecanismo de roteamento seletor.